基于LemplE-Ziv序列向量表示的多序列比对方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:huajinxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是借助计算机这一分析工具对包括生物序列在内的生物信息进行储存、检索和分析的科学,是当今核心研究领域之一。生物信息学的研究内容具体体现在通过对核酸和蛋白质序列的分析,揭示生物序列中表达的结构、功能等方面的生物信息。  序列比对是生物信息学中非常重要的分析工具,它在分析蛋白质功能和预测蛋白质结构方面起着基础性作用。序列比对可以分为双序列比对和多序列比对。双序列比对用来分析两条序列之间的相似性,是序列比对的基础。但是对一组生物序列进行同源性分析或者判断未知序列是否属于某个基因家族,就需要用到多序列比对。多序列比对算法的目的是通过对多条序列进行比对来反映序列生物属性的关系。ClustalW是被广泛应用的渐进式多序列比对方。该方法基于反映序列相似性的指导树,逐渐加入新的序列,提高了多序列比对的精度。但是该方法通过序列两两比对的方式产生距离矩阵,计算过程复杂,效率仍然不高,难以应对生物序列规模不断增大的趋势。  针对ClustalW两两比对计算复杂,比对效率低的不足,本文提出了基于Lempel-Ziv序列向量表示的渐进式多序列比对方法LemK_MSA。该方法根据Lempel-Ziv压缩算法,通过10种复制方式将每条序列转换为一个对应的10维向量,从而将多序列比对中复杂的字符串操作转换为简单的向量之间的计算,提高了多序列比对的效率。同时,该方法采取“先分组,后合并”的方式建立指导树,降低了指导树建立过程中距离矩阵的规模,提高了多序列比对方法处理大规模序列的能力。另外,根据序列向量化后,距离矩阵中每个单元的计算不再相互依赖的特点,该方法设计了基于GPU并行计算的距离矩阵计算方式。在生物序列迅速增加的情况下,该方法为准确、快速地分析序列之间的生物特征提供了一种有效工具。
其他文献
矿井提升机是我国煤矿生产行业重要的生产工具。为了提高劳动生产率,我国从上个世纪末开始引进数字控制提升机系统。提高了生产率的同时,但也带来了一个问题,就是故障很难及时的
生产调度问题一直是近年来的研究热点,生产调度效率的提高有利于制造业整体水平的提升。随着先进自动化制造技术的快速发展,基于计算机控制的物料搬运装置的自动化制造单元被
机械系统、机电系统和电磁系统等非线性系统是构成工业应用的基本系统,一般可表示为Port-Hamiltonian(PH)系统形式。如何利用PH系统的特点,研究系统的镇定控制器设计方法,为实际
在科技高速发展的今天,我们对仪器设备的依赖性越来越高。这些仪器设备都有可能产生故障,本论文就是基于这个问题而进行的。根据天然气等待检测目标泄露的特点,结合国内外对
我国铁路信息化建设经过多年努力取得了巨大发展,在运输组织、客货营销、经营管理等领域相继建立了一些重要的应用系统。但是铁路各业务信息系统大多相互独立、自成体系,没有
在国民经济不断发展的同时,各类公共突发事件的发生频率越来越高,给人们的生命和财产安全带来了严重的威胁,并且事件发生的数量、频率、规模和对社会造成的危害程度也呈现出增长
随着数字图像处理技术以及智能学习算法的不断发展,人脸检测技术正越来越多的应用到视频监控、人机交互以及电子商务等领域。本文首先对已有人脸检测技术进行了总结和归纳,并
近年来,我国煤矿开采的深度逐渐增加,并且已经成为一种发展趋势。对深部开采条件下压力分布规律的研究也将成为煤矿安全生产的前提条件。在深部开采过程中,由于受采场巷道围岩和
在纺织工艺中,可分为纺纱、织造、染整等工序。验布机是在织造工序中重要的一环。织物疵点的检测是各大纺织厂对织物的质量控制的关键环节。当前国内的纺织行业对生产出的原