DNA序列中重复片段查找技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ppaann850729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是20世纪80年代末,随着人类基因组计划的不断发展,基因序列和蛋白质数据的急速增加,以及信息理论和计算机技术的不断发展而逐渐形成的。在过去的十几年中人类对生物信息学,特别是DNA和人类基因序列的研究取得了长足的发展。海量DNA序列的测试完成和发布使人们可以利用计算机技术对包括DNA、RNA和蛋白质等生物序列进行分析,为生物学家提供更多有价值的信息。 在DNA序列分析中,重复片段查找是一个重要的基础性问题。人类DNA序列50%以上是由重复片段组成的,这些重复片段隐含了大量的生物进程信息,其中包含丰富的古生物记录,并提供许多关键的生物进化线索。目前,重复片段作为一个重要的遗传标记,已广泛运用于精密遗传连锁作图、肿瘤生化研究、法医学个体识别、亲子鉴定和群体遗传学分析等领域。在这种研究背景下,本文深入研究了DNA序列中重复片段查找问题,提出了面向重复片段查找的轻量级索引结构;针对重复片段的精确和相似性查找问题设计了高效的查找算法。本文的主要贡献总结如下: (1)针对用于重复片段查找的后缀树、增强后缀数组等索引结构的空间需求过大的问题,提出了一种面向重复片段查找的轻量级索引结构,称为后继数组。设计了一种基于基数排序的后继数组建立算法,其创建效率要优于后缀树和增强后缀数组的创建算法。根据生物信息学中的应用提出了面向多序列重复片段查询的多序列后继数组索引。分析了后继数组和多序列后继数组所需存储空间,并提出了节约存储空间的有效方法。分析表明,后继数组所需的存储空间远小于后缀树、增强后缀数组等索引结构,多序列后继数组存储空间也远小于多序列后缀树的存储空间; (2)针对精确重复片段查找问题,提出了一种新的重复片段的定义,即最大模式重复片段(LPR)。与其它重复片段的定义相比,比如tandem repeat,maximalrepetition,最大模式重复片段的查找结果包含了tandem repeat、maximal repetition等概念的全部重复片段信息,并明确表达出了重复片段的模式,并从理论上证明了在长度为n的序列中,最大模式重复片段的数量是O(n)数量级的。然后提出了在后缀树上查找序列中全部最大模式重复片段的算法;设计了基于后继数组的最大模式重复片段查找算法。性能分析表明基于后继数组的最大模式重复片段查找算法的性能要优于基于后缀树的查找方法; (3)针对相似性重复片段查找问题,分别提出了基于海明距离和编辑距离的相似性重复片段查找方法。针对海明距离衡量片段间相似性的不足,提出了模式相似度和片段相似度的概念,并在此基础上提出了相似性重复片段的定义SATR,设计了基于后继数组的SATR查找算法。在基于编辑距离的相似性重复片段查找中,通过对编辑距离的分析,提出了保守字符对的概念和重复片段相似性衡量方法,这种衡量方法既表达了距离与待比较片段间长度的关系,同时又避免了片段长度的限制;针对编辑距离计算的复杂性,提出了基于频率距离、Pearson相关性以及分段频率距离(Partitioned Frequency Distance)的重复片段候选集的过滤方法。针对传统的基于滑动窗口的序列划分方法效率过低,提出将后继数组用于序列划分的新方法。
其他文献
网关作为最常见的网络设备之一,连接着多个差别很大的网络,同时处理着网络间大量的数据流,其性能直接关系到网络用户的通信质量。传统的网关主要基于专用集成电路解决方案(ASIC)
在目前激烈的市场竞争中,企业要想在竞争中立于不败之地,决策者必须要做出快速、及时、准确的决策。这些决策的选择不再仅依据决策者的主观感觉和经验,更主要来源于对企业过去业
随着自然语言处理技术的发展,语义分析技术开始应用于中文信息处理的各个领域。基于概念图的语义分析是其中的热点和研究趋势。然而,传统的语义概念图构建方法以句法分析为核心
目前,一些门户和娱乐网站、电视台等机构开展了大量的网络互动服务,服务内容包括嘉宾访谈、网络教育讲座以及一些娱乐节目。而这种网络互动服务,通常是少数人对成千上万人的交互
搜索引擎是目前Web检索的主要工具。如果想得到全面、准确的搜索结果,必须同时使用多个搜索引擎,在这样的背景下产生了元搜索引擎。元搜索引擎的出现,在一定程度上解决了这些
近年来,数字家庭、无线通信、移动连接和无线组网等名词频频映入眼帘,这得益于网络的普及、通信技术的提高及芯片等软硬件的功能提升,使得它们逐渐融入到生活的各领域中,也显现出
在数字电视广播的一系列标准中,包括信源编码、信道编码、服务信息和解码器接口等,其中条件接收CA(Conditional Access)系统用来控制广播业务的接收,尽管CA系统提供了通用的解扰
无线自组网(Ad Hoc)被广泛地应用于军事、救灾等各种需要临时建立通讯网络的场合。自组网网络结构的建立是为了提高无线网络的灵活性、移动性,使之易于管理。安全问题是自组网
“基于P2P技术的高性能存储服务器的研究与实现”是北京市科委“基于Ipv6的下一代互联网关键技术研发及产业化推进”项目课题“IPv6流媒体分发应用系统支撑系统的开发”的一
目前,很多学校建立了自己的网站,然而师生要想在一个个性化的平台上进行学术交流、师生互动等教学活动,却很难在网站上实现。实际上学校网站就是一个电子版的学校介绍小册子,