论文部分内容阅读
真核生物的基因表达需要经过转录和翻译两个过程。在转录过程中,成熟mRNA要经过pre-mRNA的内含子剪接、5端加帽和3末端的多聚腺苷化加工(简称poly(A)位点)才能形成。其中,多聚腺苷化能标记出基因的终止位置,决定着基因结构,影响mRNA的稳定性,且在生物基因组中大量存在的单核苷酸多态性(SingleNucleotidePolymorphism,SNP)是生物个体间表现出多态性的原因之一。研究表明,若基因中含有多个poly(A)位点时,位于基因内各区域(如3,UTR)的SNPs可能会通过改变poly(A)信号或位点上下游各碱基含量影响mRNA的3末端poly(A)位点选择,从而引起基因表达的差异。因此,对真核生物体mRNA序列中poly(A)位点的正确识别将有利于我们判断基因的终止位置及其结构,为生物相关行业提供更可靠的信息。 本文首先结合生物学上对植物mRNA中poly(A)位点周围碱基及信号模式的了解,提出了把长度可变马尔可夫模型(LvMM)应用于拟南芥mRNA的poly(A)位点识别模型。该识别模型无需依赖于过多的生物学先验知识,无需对序列数据进行特征提取等操作,尤其适用于基因序列中特征不明显或新物种的位点识别。位点识别实验结果显示,LVMM在拟南芥poly(A)位点识别上取得了较高的识别结果且表现出良好的时间效率。其次,本文结合1001genomes网站所公布的拟南芥不同生态型的SNPs数据,提出了基于位点识别模型的拟南芥poly(A)位点与SNPs关联性研究流程:运用LVMM对筛选出来的SNPs-PAS序列集进行识别,获得有差异的基因信息并采用PASS识别软件对存在差异的基因序列进行位点评分,从而进行poly(A)位点与SNPs关联性研究。本文的ploy(A)位点与SNPs关联性研究流程充分发挥了LVMM在新序列集的位点识别优势,同时利用PASS的位置分值特性验证二者的关联性,实验结果也表明了所提出的poly(A)位点与SNPs关联性研究流程的可行性和有效性。