基于隐马尔可夫模型对原核生物编码序列的识别

来源 :山西医科大学 | 被引量 : 1次 | 上传用户:c126202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的:本研究使用隐马尔可夫模型,对大肠杆菌编码序列进行识别,并分析识别结果的影响因素,旨在深入学习隐马尔可夫理论,并为其在挖掘生物信息,发现致病位点中的应用提供研究基础。研究方法:模型的建立是利用隐马尔可夫模型的Baum-Welch算法对训练集数据进行训练建模,本研究共建立三个模型,分别为100次迭代的编码区隐马尔可夫模型(100次HMM-gene),10次迭代的编码区隐马尔可夫模型(10次HMM-gene)以及100次迭代的非编码区隐马尔可夫模型(100次HMM-nogene),训练数据集是来源于美国国家生物信息技术中心(NCBI),从共享资源中下载到己标识出编码区和非编码区的大肠杆菌全基因组序列,剔除了序列长度大于20000bp以及小于80bp的生物序列后,随机选取的2/3的编码区序列以及2/3的非编码区序列。判断迭代次数对识别结果影响的方法是:通过比较在不同迭代次数的HMM-gene模型下,利用Viterbi算法模拟出序列的最佳状态后,通过计算核苷酸识别正确率来判断,测试数据是从余下1/3编码序列中随机选取的50条编码序列。编码区序列识别的方法是通过比较建立的100次迭代的HMM-gene模型和HMM-nogene模型下每条序列识别为编码区状态的核苷酸与识别为非编码状态的核苷酸的比值差与1的关系来进行识别的。测试序列是从余下1/3序列中随机选取180条编码序列以及180条非编码序列。采用特异度、灵敏度以及精确度对识别结果进行评价,并用Logistic回归分析序列长度和CG含量对识别结果的影响。研究结果:通过模拟试验发现,对核苷酸的识别,100次迭代识别结果较稳健,波动性较差,识别正确率中位数为65.15%,10次迭代结果波动性较大,区分度不是很好,10次迭代识别正确率中位数为49.89%。利于本试验的方法识别编码序列的灵敏度为73.33%,特异度为67.78%,精确度为70.56%。进一步分析影响识别结果的因素发现,序列长度和CG含量对是影响序列识别准确性的因素。研究结论:利用隐马尔可夫模型识别原核生物编码序列时,充分迭代是十分有必要的,序列长度大于1000bp且CG含量较高的序列识别的准确率较高。同时发现本次试验研究还需要进一步完善,对训练数据的修饰,判断方法的仍需进一步完善。
其他文献
前言我国当前药材生产中,人参是属于基本平衡品种,要求稳定种植面积,努力提高单产,按照国家规定的质量标准提高质量,积极打开国际市场,争取多出口,为国家创更多的外汇。人参
我国当前茶叶生产上栽培的茶树品种,主要的是地方群体品种。无性系良种在全国茶树栽培的总面积上占比例很小,如福建省1979年资料报导,无性系良种只占全省生产总面积的30%;其
一、问题的提出新中国成立以来,我口化肥工业有了相当大的发展,田上施用氮肥量增加了,在五十年代和六十年代,农作物产量亦有相应的提高。以稻谷为例,很多地区每斤标准氮肥(
辐射育种是继农作物系统选育和杂交育种之后发展起来的一项育种手段。它具有提高变异率扩大变异谱,对变异了的性状稳定较快,可以缩短育种年限;处理方法简便,易为广大群众所
茶树原产于我国西南的亚热带大森林中,和常绿阔叶乔木及灌本混生在一起,形成它性喜温暖、喜湿润、喜漫射光而怕干旱、怕寒冷、怕直射强光的“三喜三怕”的遗传特性。我们要
位于北京市宣武区的椿树园是一个高楼林立、人口密集的小区,地理位置优越,交通方便,而且拥有开阔的中心花园、健身场所,小区内花木茂盛,景色秀美,配套服务设施齐全,堪称“南
在不久前召开的福建省十一届人大第一次会议上,福建省省长黄小晶代表省政府全面回顾了过去五年的经济工作和环保工作,同时全面分析了福建省的经济和环境形势,描绘了福建省未
“同工酶”一词早在1959年首先由Markert.C.L. and Moller,F.提出,指的是具有相同的酶活性但其蛋白质分子结构不相同的一类酶。现代同工酶的概念则比较广泛,指的是凡是催化
烤烟的叶片是烤烟生产的主要产品,因此从事烟草研究工作的人员,理所当然地要以烟草叶片为中心进行研究,关于烟草叶片与产量的关系,余学熙等人已有较详细的研究报导,而有关烟
摘要:微格教学在师范专科生校内教育实习中的应用模式以分布式认知的理论为指导,强调微格教学中通过反思、对话和交流提升师范专科生对自我课堂教学的理性认识,并通过反复的微格教学实践在校内教育实习中提升师范专科生整体教学技能。  关键词:微格教学;师范专科生;教学技能  中图分类号:G642.4文献标志码:A 文章编号:1673-8454(2014)08-0008-03  微格教学又称为“微观教学”、“录