基于k词的DNA序列分析的模型研究及应用

来源 :大连理工大学 | 被引量 : 8次 | 上传用户:second5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在20世纪,科学技术迅猛发展,它推动了生命科学发展的步伐。20世纪90年代人类基因工程计划(Human Genome Project, HGP)的启动和实施,大量的生物分子数据随之产生,这些生物数据蕴含着丰富的生物信息,为了能够管理好这些数据并从海量的数据中提取出有价值的信息,众多的生物学家、数学家、计算机科学家被吸引到这个新的领域并积极进行研究,计算分子生物学就是在这种挑战性的研究过程中产生的一门新兴的交叉学科,它的核心内容是生物序列分析的研究。通过近几十年的研究与发展,生物序列分析的研究方法一般分为两大类:一类是比对方法,另一类是非比对方法。鉴于比对方法的算法成本比较高,非比对方法越来越受到众多学者的关注。本文就是以k词为研究对象,提出了一些DNA序列分析的非比对模型,主要成果有:在第二章中,建立了DNA序列的一个新的几何图形表示模型。此模型是以有序的双核苷酸(2词)为研究对象,将一条DNA序列映射成一条3D曲线。运用此模型对DNA序列进行了突变分析,相似性分析和进化分析。在相似性分析和进化分析中,提出了一种简单有效的新的数值刻画量表征DNA序列,通过重构11个物种的进化树以及跟其它方法的比较,此模型蕴含着更为丰富的生物信息。此模型是对已有的几何图形表示模型的一种有效的补充。在第三章中,将伪氨基酸方法的思想推广到DNA序列分析中,构建了一个新的模型。此模型仍然是以双核苷酸为研究对象,将伪氨基酸中20个氨基酸的频率换为16个双核苷酸的频率,并从16个双核苷酸中挑选了8个重要的双核苷酸,将它们的逻辑序列的复杂度作为组成成分构建了一个24维的特征向量。用欧式距离度量得到相似性矩阵,并用PHYLIP软件重新构建两组实验数据的进化树来说明此模型的有效性。在第四章中,构建了DNA序列的一个概率模型。对DNA序列中的k词定义了一个新的概率分布,此概率分布不仅考虑了k词频率同时考虑了其位置信息。考虑到碱基突变的影响,我们对每一个k词新的概率分布减去了背景概率,用它们之间的相对差异性来表征一条DNA序列。作为应用,我们重新构建了两组实验数据的进化树,并用INDELible软件来说明我们提出方法的可靠性和稳定性。通过跟其他方法的比较,也说明了此特征向量蕴含着丰富的生物进化信息,是用于DNA序列进化分析的一种较有说服力的工具。
其他文献
为更好的推进全省畜牧技术推广体系的建设,进一步健全完善基层畜牧技术推广机构建设,2019年底,对全省畜牧业技术推广体系建设情况进行了调查,结合当前体系改革,总结了一些好
选择性催化还原(简称SCR)反应具有典型的时滞性和不确定性,并受到"添蓝"供给模块执行能力的约束以及大气环境、系统性能状态和未建模因素等的干扰,NOx排放的准确控制成为问题
城市化是人类社会发展的必然趋势,与发达国家相比,我国的城市化水平还比较低,在城市化进程当中,各项事业的发展都面临种种困难与挑战,都是在不断的探索中前进。城市近郊农村
<正> 血栓性静脉炎:本病是较常见的周围血管病,中医认为多由湿毒下注,浸淫肌膝,奎塞脉道,致令湿毒稽留,血行涩滞而成。治疗大法,多以清热利湿,和血通脉的内服药为主。若能配
π-共轭聚合物被认为是很有发展前景的材料,因为它拥有独特的光电特性,可以被广泛的应用于太阳能电池(PSCs),电致变色器件,传感器,聚合物发光二极管(PLEDs)等各种领域。这些
在素质教育不断推进的今天,我们小学生要想学好数学,就应该激发学生的学习兴趣。本文浅谈了几种激发学生学习兴趣的方法。
本文以2011—2014年度沪深A股非金融类上市公司为研究对象,基于利益相关者理论、代理理论和信号传递理论,从企业社会责任的治理效应角度研究企业社会责任、政治关联与非效率
<正>☆基础篇课时一平面直角坐标系、函数诊断练习1.填空题(1)在平面直角坐标系中,点A(-3,4)在第__象限,它到x轴的距离为__,到y轴的距离为__,到原点的距离为__. (2)已知点P(
随着我国科技创新战略的提出和创新型国家建设战略的深入实施,如何提高科研团队创新绩效水平成为促进我国科技发展的关键。本文运用扎根理论,从提高科研团队创新绩效的角度,
在"十三五"规划中,再次将三农问题放在重中之重的位置,从"十二五"规划中的强农惠农,加快社会主义新农村建设,进一步提升为实现全面建设小康社会。近年来,随着福建省农村社会