论文部分内容阅读
植物microRNA(miRNA)是植物体内基因转录后调控的非编码小分子RNA,其大小在21-24nt之间,在生物生长,发育,分化和抗逆等过程发挥重要作用。成熟的miRNA是由较长的发夹样结构的前体(pre-miRNA)经过具有RNaseⅢ活性的Dicer-like核酸内切酶剪切成带有3′端2nt突出的粘性末端(overhang)的miRNA∶∶miRNA~* duplex,随后duplex中的miRNA~*链被降解,miRNA与RNA诱导沉默复合体(RNA induced silencing complex,RISC)结合进而靶向特定的mRNA发挥抑制靶基因翻译或诱导靶基因降解等生物学功能,最近研究发现miRNA还参与组蛋白甲基化的生物学过程。本研究基于支持向量机(SVM)和vienna RNA packag工具,采用新型的特征向量,开发了miRseacher(miRNAseacher),和辅助软件expr_diff和pick_plant_target工具,实现了植物miRNA前体和靶标预测的完整流程,核心代码是用perl计算机语言来实现。miRseacher主要用于microRNA的前体(pre-miRNA)预测,核心思想是从miRbase库中收集植物pre-miRNA的正向数据集(positive dataset)和从拟南芥CDS区收集具有发夹结构的负向数据集(negativedataset),然后利用这两个数据集训练SVM产生具有识别真假pre-miRNA的数学模型,最后根据这个数学模型能够预测新的发夹结构属于真实pre-miRNA的概率值。经检验miRseacher的特异性和敏感性分别达到98.95%和99.19%,以及ROC曲线的AUC(column-wise Area Under ROC Curve)达到98.65%,故预测模型可以在植物物种中泛化。expr_diff是基于solexa测序技术和泊松分布原理而开发的软件,主要用于分析miRNA表达差异显著性检测。pick_plant_targe主要用于靶基因预测,其核心思想是根据植物miRNA几乎与靶位点完全匹配的核心思想来设计,并根据以往的研究额外导入错配数,miRNA∶∶mRNA结合自由能,以及错配发生的位置来进行过滤。另外,二代深度测序(next generation deep sequencing)技术,如illumina/solexa,454等技术为small RNA分析提供新的分析思路。本研究专门借助华大基因研究院研发的基于solexa测序技术miRNA挖掘工具来研究NCBI的GEO数据库中的拟南芥的miRNA solexa,分别是GSM253622(Immunopurified Arabidopsis AGO1complex)和GSM253623(Immunopurified Arabidopsis AGO2 complex)。基本思路是分离长度约为24nt的RNA片段用于solexa测序,得到的去污染的reads,过滤掉非miRNA的非编码序列如tRNA、rRNA等,统计出与miRbase中miRNAs有18个碱基同源的reads数目作为miRNA的表达量进而进行miRNA表达差异分析,然后剩余的reads比对到拟南芥的参考基因组序列预测潜在的新miRNA。ATH-AGO1中miRbase的203条拟南芥miRNAs有152条表达,而ATH-AGO2只有103条表达,其中有83条miRNAs表达量存在显著性差异。最后,ATH-AGO1和ATH-AGO2中新预测出的miRNA分别是172条和22条。以往的研究表明拟南芥miRNA的RISC复合体的AGO蛋白倾向于AGO1,而siRNA的RISC复合体的AGO蛋白更倾向于AGO2,但是在本次重新分析AGO1和AGO2免疫共沉淀而得到的small RNAsolexa数据显示在AGO1和AGO2中都检测到miRbase中已知的miRNAs的表达,在AGO2也预测到少量新的miRNAs,预测着AGO蛋白家族相应的功能既有特异又有重叠。