基于多个k值的DNA序列不对齐比对方法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:tkzc666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代基因测序技术的发展,生物学领域产生了大量的数据,对这些生物数据的处理是一个急需解决的问题,同时也是计算机,数学等其他多个领域面临的一个重大挑战,生物信息学在这个背景下产生了。DNA序列之间的比对是生物信息学研究问题之一,并在很多方面有着重要的应用。序列比对旨在发现两条DNA序列之间的相似程度,进而揭示对应物种之间的联系。过去50年里,大量的序列比对方法被提出,目前主要的序列比对方法包括两大类:对齐的方法和不对齐的方法。对齐的方法,往往需要庞大的时间开销,对于两条序列的长度也有一定的要求,无法处理大规模的数据,在当前数据爆炸的环境下已经不适用。不对齐的方法通常是通过从序列中提取长度为k的短序列片段,并统计序列片段的一些统计特征来定义序列相似度。不对齐方法虽然能够快速的得到序列比对结果,但是也面临着两个急需解决的问题:因为这一类方法依赖参数k来提取序列特征,不同的k对于算法的性能影响很大,确定最优的k值往往需要进行大量的实验进行尝试,这给实际应用带来了困难;此外,这一类方法在解决相关问题的准确度上仍然需要进一步提高。本文为解决不对齐比对方法的两个问题,提出综合多个k值的思想。本文使用了两种加权方法用于区分不同k值提取特征的重要性,提高不对齐方法的精度;另外,本文也引入机器学习方法到序列比对领域,处理序列比对相关问题。基于综合多个k值的思想,本文首先对传统的不对齐的D2类型方法上进行了改进,应用了两种不同的加权方案:最大离差法和遗传算法,对序列特征进行加权处理,提出了两种增强的不对齐比对方法。本文设计并实现了两个序列比对任务,实验结果表明,我们提出的方法在没有额外增加时间复杂度的情况下能高效准确地处理大规模的生物DNA序列,并且相较于以前的不对齐方法,我们的方法所获得实验准确率更高。此外,本文也提出一种用于序列比对的机器学习模型,仍然使用多个k值提取序列特征,对特征进行编码后,采用卷积神经网络对序列比对任务进行处理,相关实验结果表明,相较于以前的不对齐方法,使用卷积神经网络的比对模型准确率更高。
其他文献
目的研究以PLGA-PDPA纳米粒作为光热转化材料,利用剪切波弹性成像监控肝组织的光热消融治疗,以探索新的肝脏光热消融治疗实时监控方法。方法利用双乳化法制作PLGA微球,在碱性
断奶仔猪腹泻(Post-weaning diarrhoea,PWD)是影响仔猪生产效益的主要因素,蛋白质是仔猪生长的必需营养物质,可通过结肠发酵、过敏反应等引发仔猪腹泻。而结肠作为吸收水分的
目的:越来越多的证据支持长链非编码RNA ZFAS1(LncRNA ZFAS1)可作为蛋白调节剂介导多种癌症的发生发展,然而其在结直肠癌中的生物学功能与分子调控机制尚不完全清楚,因此,挖
目的:探究金雀异黄素(genistein,GEN)对脂多糖(lipopolysaccharides,LPS)活化的巨噬细胞凋亡的影响及是否与调节TIPE2/Akt通路有关。方法:1.将1 000 ng·mL-1LPS作用于RAW264.7细
随着数据信息化的日益发展,人工地从数据中筛选出需求的信息已经变得十分困难,为此研究者以统计学思想为基础提出了机器学习方法,而其中分类、聚类和回归分析等知识发现方法更是获得了较为广泛的应用。但原始数据中可能存在的冗余及偏差信息会导致知识发现算法难以获得预期的结果,因此预先对数据进行必要的处理在机器学习领域的研究中同样十分重要。以属性选择算法为代表的数据预处理技术被提出用来从从原始数据中提取出更加重要
背景和目的药物的靶向治疗是近些年来研究的热点,索拉菲尼作为一种口服多重激酶抑制药,具有抑制肿瘤细胞增殖和血管形成的双重作用,作为治疗肝癌和转移性肾细胞癌的一线药物,
随着人类基因组计划测序工作完成,蛋白质的相关研究已成为当今生命科学的主要研究内容之一。配体结合蛋白在诸多生物过程中发挥关键作用。蛋白质-配体结合残基的识别对于理解蛋白质功能有重要意义。由于传统测定方法的技术细节复杂且成本高昂,处理海量的蛋白质需要计算方法的参与。已知的计算方法均基于传统机器学习,可被粗略地分为基于序列的方法和基于三维结构的方法,两者的根本区别在于是否使用三维结构,前者已在一系列结合
机器学习试图使用图结构化数据作为特征信息进行预测或发现新的模式,其研究重点主要集中在嵌入图中的离散节点进入具有某些所需几何特性的连续空间。尽管图表示学习潜力巨大,但将图嵌入到低维空间并不是一项简单的任务。本文的工作重点是赋予神经网络表示适当的几何结构,以捕获图数据的基本属性,特别是层次结构和聚集行为。而复杂网络中的异质和高聚集拓扑特性却令人惊讶的反映在双曲负曲率空间的基本属性中。因此,本文的目的是
植物的生活与微生物息息相关并且能和多种微生物建立共生关系。这些共生微生物能够影响宿主植物的生长、代谢、抗胁迫等能力,因此这些共生微生物菌剂在可持续农业发展上显示
在移动互联网飞速发展的驱动下,移动终端上网、机器连接等产生的移动数据业务量快速增长,多样化的移动通信场景不断涌现。为应对数据的快速增长以及对多样化业务场景的支持,