基于RNA-Seq数据的植物LncRNA鉴定方法|代写毕业论文-代写MBA论文,MPA论文,EMBA论文,本科专科毕业论文网

您当前的位置：主页 > 农业论文 >

基于RNA-Seq数据的植物LncRNA鉴定方法

发布时间：2019-09-29

　　长链非编码 RNA( Long non-coding RNA，Ln-cRNA) 是一类长度超过 200 nt 的长链非编码 RNA分子，是 RNA 聚合酶 II 转录的副产物，它可在多个层面上( 表观遗传调控、转录调控以及转录后调控等) 调控基因的表达［1-4］。据统计，哺乳动物蛋白编码基因占总 RNA 的 1%，而长链非编码 RNA 占总RNA 的比例可达4% ～ 9% ，这些长链非编码 RNA现已成为继 MicroRNA 后的研究热点［2，5］。目前发现 LncRNA 的序列保守性较低，相比编码蛋白基因具有较强的可塑性，进化速度快，且在基因组上的位置往往与其功能有一定的相关性［6-9］。

　　LncRNA 的作用机制比较复杂，目前发现的LncRNA的作用机制包括: 在蛋白编码基因上游启动子区发生转录，干扰下游基因的转录表达; 抑制RNA 聚合酶 II 活性、介导染色质重构或组蛋白修饰等，影响相关基因表达; 与蛋白编码基因的 mRNA结合，干扰 mRNA 的剪切成熟过程; 与蛋白编码基因的 mRNA 结合，在 Dicer 酶作用下产生内源性的siRNA，从而调控相关基因的表达; LncRNA 还可结合到特定蛋白质上调节相应蛋白的活性，通过结合到特定蛋白上，改变该蛋白的胞质定位［4，7-10］。总体而言，LncRNA 可通过表观遗传学调控、转录调控、转录后调控、蛋白活性调控等多种方式调控相关基因［4，7-10］。

　　目前，LncRNA 的相关研究大多集中在人类和哺乳动物中。截至 2013 年 7 月 1 日，NONCODE v3．0非编码数据库中已收录 73 327条 LncRNA，主要分布在人类 ( 33 831，占 46. 14%) 和小鼠 ( 37 047，占50. 52% ) 中［11］。Cabili 等利用 RNA-seq 技术测定人体24 种细胞与组织中的 RNA，结合已知的 LncRNA数据，凭借序列、结构、转录、同源性等 30 个属性对LincRNA 进行大规模鉴定，得到 8 195 条 LincRNA( Long intergenic non-coding RNA)［12］。同时发现 Lin-cRNA 在不同的组织有着差异表达，LincRNA 还与其两旁的蛋白编码基因存在着共表达的关系［12］。Brunner 等完成了首个大型的癌症 LncRNA 表达谱分析，对64 个肿瘤样品高通量 RNA-seq 测序，在各种肿瘤类型之间找出差异表达的 1 065个LncRNA［13］。Li等使用 RNA-Seq 首次系统地验证了鸡骨骼肌发育过程中的 LncRNAs，证实了鸡基因组中 281 个新的基因组间 LncRNAs，发现和蛋白编码基因相比，新证实的LncRNAs 的保守性更差，但和随机非编码序列相比，这些 LncRNAs 较为保守［14］。Pauli 等对斑马鱼早期发育过程中的 8 个阶段进行时间序列的 RNA-seq 分析，重新构建了 28 912个位点上的 56 535个转录本，除了覆盖大多数已表达的 RefSeq 转录本外，还找到数千个新的亚型和表达位点，定义了一系列( 共1 133条) 在胚胎发育过程中表达的非编码多外显子转录本［15］。

　　较人类和哺乳动物中大量 LnRNA 的鉴定及其大量调控机制的功能解析相比，植物中 LncRNA 的研究则相对滞后［16］。目前，在新建立的植物 Ln-cRNA 数据库 PLncDB( Plant long noncoding RNA da-tabase) 中，利用不同技术手段 ( ESTs、Tiling array、RNA-Seq 等 ) 鉴定发现了 13 000 多个拟南芥LncRNA［17］。Swiezewski 等在拟南芥冷处理的种子中发现一个 LncRNA，命名为 COLDAIR，COLDAIR在春化过程中的对重要开花抑制因子 FLC 的沉默起着重要的作用［16］。此外，Boerner 等在玉米中利用全长 cDNA 序列( flcDNA) ，采用生物信息学方法鉴定了 1 011的 LncRNA，并对其进行了相关结构分析及基因组定位［18］。

　　随着高通量测序和生物信息学的快速发展，RNA 测序( RNA-seq) 成为研究基因表达、调控网络和转录组分析的重要技术手段［19］。目前，利用RNA-Seq 数据鉴定 LncRNAs 已逐渐成为代替传统微阵列、cDNA 测序的重要技术手段。然而，相较于人类和哺乳动物，植物因其功能基因组学发展的落后性，造成现有的基于哺乳动物发展的 LncRNA 鉴定方法在植物中产生较高的假阳性。本研究结合植物基因组特点以及高通量 RNA-Seq 测序的优势，拟设计优化一套基于 RNA-Seq 数据的植物 LncRNA鉴定方法。并进一步对其进行全基因组定位，为后续功能机制研究奠定基础。

　　1、材料方法

　　1． 1、玉米自交系 B73 顶端分生组织 RNA-Seq 数据

　　从 NCBI SRA 数据库(检索下载玉米 B73 顶端分生组织的 RNA-Seq 数据，编号分别为 SRR424649 和SRR424650。该数据是通过 Illumina 测序平台，长度为 76 bp 的单端测序获得，碱基数约计 2. 35 Gb。

　　1． 2、序列预清理

　　B73 顶端分生组织的 RNA-Seq 测序数据，首先通过 NCBI SRA 数据库中的 SRA Toolkit 软件转化产生碱基及质量值。随后，利用SolexaQA 软件包对原始测序数据的质量 ( Q20，Phred-Score≥20 即 1% 的错误率) 和测序长度( L20，长度≥20 bp) 进行过滤［20］。

　　1． 3、转录组重建

　　采用基因组指导的参考性组装，从而获得转录本集合。清理后的 B73 顶端分生组织 RNA-Seq 数据通过 Tophat v2． 0． 8［21-22］比对到参考基因组。随后，对那些没比对上的序列在重新比对之前清理到50 nt 长。利用 Cufflinks v2． 1． 1 程序［22］程序组装这些比对上的序列。在转录组组装时，用参考基因组序列信息与参考的基因注释集相结合的方法，减少因序列覆盖不足而造成的转录本不完整的情况，进而获得可靠的 B73 顶端分生组织转录本。

　　1． 4、Coding / non-coding 编码预测

　　对组装获得的 B73 顶端分生组织转录本进行编码能力区分及 LncRNA 鉴定与分类。主要是利用NCBI 非冗余蛋白数据库( nr) 和 Pfam 蛋白家族数据库，通过 CPC 程序［23］综合考虑 ORF 长度以及与已知蛋白的同源性来鉴定转录本是否编码，随后进一步过滤低表达转录本，从而获得候选的 B73 顶端分生组织 LncRNA 集合。

　　1． 5、基因组定位

　　获得候选 B73 顶端分生组织 LncRNA 数据集后，进一步通过自行编写的 Perl 脚本程序从基因组比对结果中释放基因组定位信息，从而获得 Ln-cRNA 在全基因的分布情况，进一步解析其类型和相关的基因信息。

　　1． 6、同源比对分析

　　为了进一步明晰基于 RNA-Seq 数据预测LncRNA的可行性及可靠性，将基于玉米 B73 顶端分生组织全长cDNA序列( flcDNA) 和 RNA-Seq 不同数据预测的 LncRNA 利用 Blastn［24］程序做了同源性分析。同源性分析采用参数为 E 值≤1e-15，最小匹配碱基≥100 bp，相似度≥80%。

　　2、结果

　　2． 1、基于 RNA-Seq 数据预测植物 LncRNA 的流程设计

　　结合 RNA-Seq 数据分析方法以及植物基因组、转录组特点，优化了植物 LncRNA 的分析策略，主要分为 3 个部分: ①RNA-Seq 序列的预处理。主要利用 SolexaQA 对低质量碱基和长度进行过滤; ②转录组重建。目前的转录组重建方法主要有两类，一类是基因组指导的，另一类是不依赖于基因组的从头组装( de novo assembly) 。De novo 组装对测序深度、长度均有较大的依赖性，因此这里我们采用基因组指导的转录组重建( Genome-guided transcriptome re-construction) 方法，主要通过 Tophat2 程序利用剪切方式比对，采用外显子优先的比对算法，利用已知的基因集信息作为参考，将测序 Reads 映射到基因组上，进一步构建转录本; ③coding/non-coding 编码鉴定。通过 nr 和 Pfam 蛋白数据库过滤具有编码能力的转录本后，利用 CPC 程序综合考虑 ORF 长度以及与已知蛋白的同源性来鉴定转录本编码能力，过滤低表达转录本，获得 LncRNA 集合。

图 1 基于RNA-Seq数据预测植物LncRNA流程

　　2． 2、玉米 B73 顶端分生组织的 RNA-Seq 数据预测LncRNA

　　为了考察上述流程的可行性和可靠性，我们利用玉米自交系 B73 顶端分生组织的 RNA-Seq 数据来预测 LncRNA。选取的约 2. 35 Gb 测序碱基的B73 illumina RNA-Seq 数据( 登录号: SRR424649 和SRR424650) 清理后共 28 130 060条序列，碱基数约2. 1 Gb，均长为 72 bp。利用 Tophat 2 转录组比对程序将测序序列定位到玉米 B73 参考基因组( V2) 上。

　　28 130 060 条测序 Reads 序列中，18 297 964( 65. 11%) 条序列被特异地定位在 B73 参考基因组上，1 693 776( 6. 05%) 条序列定位在多个位点，而8 138 320( 28. 93% ) 条序列则未能定位到参考基因组。随后，利用 Cufflinks 转录组组装程序，采用基因组指导性组装( Genome-guided assembly) 策略，结合B73 的基因注释信息，组装共获得157 058 个转录本。通过 FPKM 表达量和长度过滤获得候选的43 865个转录本，用于后续的编码鉴定。

　　进一步通过 CPC 程序预测，综合考虑了转录本ORF 大小以及与 nr、Pfam 蛋白数据库的序列同源性，来鉴定 coding/non-coding 编码能力。结果发现，6 122( 14. 00% ) 转录本不具备编码能力，为非编码RNA( non-coding RNA) ，而 37 743( 86. 00% ) 转录本与已知的功能基因具有较高的同源性而被定义为编码 RNA( coding RNA) 。因此，基于 B73 RNA-Seq 数据共获得 6 122个长非编码转录本( LncRNA) ，平均长度为 619 bp( 表 1) 。同时，利用 Cufflinks 程序计算 6 122 LncRNA 的表达量( FPKM) ，结果显示 Ln-cRNA 总体表达量普遍较低( 图 2) 。

图 2 玉米B73顶端分生组织中候选 LncRNA FPKM表达量分布

表1 玉米B73 LncRNA预测结果汇总

　　2． 3、玉米 B73 LncRNA 的全基因组定位

　　利用 B73 参考基因组和 RNA-Seq 比对信息，对上述预测的 LncRNA 进行了全基因组定位，揭示其LncRNA 的在玉米染色体上的分布及邻近可能调控的基因信息。总体而言，6 122个 LncRNA 中，6 103( 99. 69%) 定位在已知的染色体区域，19 个( 0. 31%) 定位未知区域。其中，2 431个 LncRNA 定位在已注释的基因区域，而3 691个 LncRNA 则定位在已注释的基因区域外。

　　2． 4、基于 RNA-Seq 与 flcDNA 预测玉米 B73 Ln-cRNA 集合的同源分析

　　为了进一步考察 RNA-Seq 技术预测植物 Ln-cRNA 的可行性，将我们利用基于 RNA-Seq 预测的玉米 B73 的 LncRNA 集合与 Boerner 等利用 flcD-NA 预测的 LncRNA［18］做了比较分析( 图 3) 。两种途径发现的 LncRNA 通过同源比对分析发现，基于 flcDNA 预测的 B73 1011 个 LncRNA 中，101 个与基于 RNA-Seq 预测的 B73 LncRNA 序列存在较高的相似性。未能比对上的 910 条序列，应用本研究设计的方法进行编码能力鉴定，结果 Boerner等报道的 688 条序列［18］与目前报道的功能基因具有较高的同源性，因此应被鉴定为编码 RNA( cod-ing RNA) 。这一结果证实，基于 RNA-Seq 数据预测 LncRNA 相较传统低通量测序数据具有较高的准确性及可靠性。

图3 基于RNA-Seq和flcDNA不同数据预测的LncRNA集合比较

　　3、讨论

　　利用生物信息学方法来鉴定筛选 LncRNA 是目前研究最为经济有效，同时也是主流的方法。在鉴定筛选 LncRNA 中，转录组重建和 Coding/non-cod-ing 识别是其中最为关键的两个部分。首先，转录组重建往往受序列读长、测序深度、文库大小等多个因素的影响。传统 cDNA Sanger 测序读长较长有助于组装，但是其通量低、测序错误率高以及组装常常产生嵌合体，从而会造成后续分析的误差［25］。RNA-Seq 读长短，但其通量高、测序质量较高、基因覆盖度高，有助于获得全面的转录组信息，揭示转录本UTR 长度、外显子边界定位、选择性剪切机制以及动态的表达调控机制。此外，双末端 Paired-end 测序方式，同时结合参考基因组信息，将极大有助于转录组的准确重建［25-26］。本研究采用的参考基因组指导性组装，利用已知基因组注释信息，采用外显子优先算法有效保证了转录组的准确重建。另外，coding / noncoding 编码能力鉴定则是关系到 LncRNA能否发现的重要步骤。本研究采用综合性方法，利用 CPC 程序综合考虑 ORF 长度以及与已知蛋白的同源性，进而鉴定其编码能力，这一方法已广泛应用在人类、哺乳动物以及一些模式植物如拟南芥、玉米的 LncRNA 鉴定中［18，27-28］。但该鉴定方法不可避免地受蛋白数据库大小的影响，蛋白数据库越大，收录的蛋白序列也越多，鉴定的 LncRNA 数目则越少。

　　目前，Swissport 数据库和 NCBI RefSeq 数据库是通过文献支持以及专家审阅的高质量非冗余蛋白数据库，收录的蛋白序列虽然少，但较为可靠。而 NCBI的 nr 蛋白数据库则是目前收录蛋白序列最多的数据库，但其中包含大量机器翻译推测的蛋白序列，其准确性相对较低。因此，选用蛋白数据库需要根据试验自身的需求来调整。

　　此外，植物基因组因其自身结构特点以及基因组学发展的滞后性，造成了不能简单套用人类和哺乳动物 LncRNA 的鉴定方法。人类和哺乳动物 Ln-cRNA 鉴定的流程大致可分 3 个步骤: ①转录组重建; ②过滤已知基因集，选取非基因集或者与已知基因集存在变异的转录本; ③编码能力鉴定。然而，植物基因组学发展相对滞后，其注释基因集含有大量机器 de novo 从头预测的基因。因此，植物中的参考基因集并不能作为准确可靠的功能基因去过滤，而是需要重新评价或者仅作为参考基因定位数据。鉴于此，本研究充分结合了植物基因组特点以及高通量 RNA-Seq 测序数据的优势，通过生物信息学手段发展、优化了一套基于 RNA-Seq 数据的植物 Ln-cRNA 筛选及鉴定方法，为植物中鉴定筛选 LncRNA提供重要的思路和方法。

TAG标签： LncRNA RNA-Seq 植物

上一篇：宝清县规模种植果园昆虫种类、危害及处理对策
下一篇：蛹虫草菌株及配套栽培技术的普及推广