论文部分内容阅读
随着人类基因组计划的大规模测序的完成,人们发现人类基因组所含有的基因数目远少于细胞中蛋白质的数目。真核生物基因序列包括编码的外显子序列和不编码的内含子序列,在转录过程中内含子被切除,外显子通过特定的方式拼接在一起形成成熟的mRNA。选择性剪接使得一个基因序列有多种剪接方式,并能产生不同的成熟mRNA,进而编码多种蛋白质,选择性剪接是蛋白质多样性的重要来源。真核基因剪接位点的确定主要通过实验的方法来完成。鉴于人类基因组研究所面临的海量数据以及实验方法有自身的局限性,如何用理论和计算的方法识别和预测剪接位点是目前生物信息学研究工作的重要任务。
现行的对剪接位点的理论预测方法多是基于基因组序列信息而展开,考虑到除了序列,生物大分子的功能与其结构间会存在某种关联,为了探索结构对于真核生物基因组剪接位点的识别有无影响和有多少影响,论文在基于基因组局部序列信息预测的基础上,增加了二级结构信息用于对剪接位点进行预测。用取自数据库EID中人类基因组相同的样本以三种不同的截取方式得到三组序列数据集,并用结构预测软件RNASTRUCTRE4.5对这些序列进行预测得到相应的二级结构。对每组数据集分别以序列、序列及其相应的二级结构、二级结构作为输入向量,用支持向量机的径向基算法、K最近邻法、支持向量机的多项式算法做剪接位点预测。对比结果发现,以序列作为输入向量的识别结果略高于以序列和二级结构的识别结果,两者的识别结果都远高于以二级结构作为输入向量的识别结果。这表明,在人工智能对剪接位点的识别过程中,仅序列信息作为输入向量能较好地得到预测结果,而加入了二级结构作为输入向量时并没有提高预测效果;在对剪接位点的识别过程当中,序列信息起着相当重要的作用,而相应的二级结构信息起到的作用并不明显。