基于支持向量机的人类基因组mRNA剪接位点的识别比较

来源 :云南大学 | 被引量 : 0次 | 上传用户:woaini009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的大规模测序的完成,人们发现人类基因组所含有的基因数目远少于细胞中蛋白质的数目。真核生物基因序列包括编码的外显子序列和不编码的内含子序列,在转录过程中内含子被切除,外显子通过特定的方式拼接在一起形成成熟的mRNA。选择性剪接使得一个基因序列有多种剪接方式,并能产生不同的成熟mRNA,进而编码多种蛋白质,选择性剪接是蛋白质多样性的重要来源。真核基因剪接位点的确定主要通过实验的方法来完成。鉴于人类基因组研究所面临的海量数据以及实验方法有自身的局限性,如何用理论和计算的方法识别和预测剪接位点是目前生物信息学研究工作的重要任务。 现行的对剪接位点的理论预测方法多是基于基因组序列信息而展开,考虑到除了序列,生物大分子的功能与其结构间会存在某种关联,为了探索结构对于真核生物基因组剪接位点的识别有无影响和有多少影响,论文在基于基因组局部序列信息预测的基础上,增加了二级结构信息用于对剪接位点进行预测。用取自数据库EID中人类基因组相同的样本以三种不同的截取方式得到三组序列数据集,并用结构预测软件RNASTRUCTRE4.5对这些序列进行预测得到相应的二级结构。对每组数据集分别以序列、序列及其相应的二级结构、二级结构作为输入向量,用支持向量机的径向基算法、K最近邻法、支持向量机的多项式算法做剪接位点预测。对比结果发现,以序列作为输入向量的识别结果略高于以序列和二级结构的识别结果,两者的识别结果都远高于以二级结构作为输入向量的识别结果。这表明,在人工智能对剪接位点的识别过程中,仅序列信息作为输入向量能较好地得到预测结果,而加入了二级结构作为输入向量时并没有提高预测效果;在对剪接位点的识别过程当中,序列信息起着相当重要的作用,而相应的二级结构信息起到的作用并不明显。
其他文献
该文系统研究了光波导短程透镜射线光学分析方法、声光偏转器中声场激发及其与光 的相互作用,提出一种多通道高分辨可调声光偏转机制,在此基础上提出一种基于短程透镜光路和
土壤质量和水文循环对黄土高原地区生态系统恢复至关重要。作为旱区生态修复的主要手段,整地方式和植被恢复带来的土壤生态水文效应直接关系区域生态恢复的可持续性。本研究选
随着社会生产力的发展以及生活质量的提高,人们对生活品质的要求越来越高,也越来越关注与日常生活工作息息相关的室内环境。无线传感器网络的快速发展改变着人类与自然界的交
当前,计算机在很多方面上已经超过了人类,尤其在计算能力、记忆能力和逻辑推理方面,但在感知能力、洞察力、创造力和形象思维方面还远远不及人类。因此,通过模仿生物进化得来的不
该文利用DEM技术得到的硅和金属镍模具,对聚甲基丙烯酸甲酯(PMMA)、聚苯乙烯(PS)、聚甲醛(POM)、聚碳酸酯(PC)、聚氯乙烯(PVC)和有添加剂的黑色PMMA等高分子材料进行了微复制
该文系统地回顾了图像压缩编码技术和现有的图像编码国际标准,对广泛应用的一些网络以及该上多媒体信息传输的国际标准进行了概括性的介绍.在该基础上,针对不同网络的要求,讨
大型天线的测量在现有的测试场条件下很难完成.该文论述的修正方法是通过引入相位因子来补偿由于测量距离不满足远场测试条件造成的相位差,从而实现由近距离测量来获得天线远
本文通过对荣华二采区10
期刊
雷达舱结构是一类特殊的由磁散射结构,该类结构通常会在一个宽空域内产生较大的电磁散射.由于各种实际雷达舱的物理尺寸远远大于波长,而且结构和形状不规则,因此通常很难建立
本文通过对荣华二采区10
期刊