基于k-mer频率统计的物种分类方法

来源 :吉林大学 | 被引量 : 5次 | 上传用户:elements17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物学界的物种分类工作走过了几百年的发展历史,在日积月累的过程中建立了相当详细的分类方法,并发展出形态分类学这门学科,但目前尚未发现和未进行分类的生物物种的数目仍然是非常巨大,传统的形态生物分类学方法在面对如此繁琐的工作时已经遇到了瓶颈。 随着生物测序技术的发展,DNA测序成本开始降低,而生物学家又意识到真正包含生物最本质特征信息的载体正是生物的基因组序列,所以基因序列内容应该被应用到物种分类工作中。目前生物信息学家进行生物物种分类使用的基本方式是在全基因组中选取一段具有相当特性的片段来代表物种的特征,并且使用这种特征进行物种间的比较,从而进行生物学分类分析。这项分类技术已经取得了令人满意的成果,不过由于该项技术上仍然存在一定程度上的局限性和不足之处,并且由于不同的研究者选择的片段不同,为分类方法的标准统一带来了难题。 本文尝试用另一种方法来建立一个能将生物自身的序列特征统一的标准系统。这种方法的基础在于:生物基因序列k-mer短片段序列的频率在进化过程中具有相当的稳定性。在这种稳定性的前提下,我们尝试使用生物基因组的大部分序列而非一小部分来描述生物本身的特征。通过对这些序列进行k-mer的频率统计,得到了一个代表物种的特征向量,并使用这个特征向量进行物种的分类鉴别。这样使得各个物种都可在一个统一标准下进行分类划分。我们尝试了细菌和病毒的分类,并取得了一定的成果。在生物分类学的“属”以上级别的分类中产生了非常精确的数据,在亚种或变种级别上的数据结果也达到了一定的精度。
其他文献
代数方程由于在拓扑结构和表示等方面具有一些优于参数方程的性质,近年来一直是CAGD,计算机图形学,以及逆向工程学科中的一个热门话题.本文就就参数曲线的近似隐式化及平面正则代数曲线段的逼近问题给出了算法.本文主要分为两部分,参数曲线的近似隐式化及平面代数曲线的高效逼近. 参数曲线的近似隐式化:首先我们在给定一个单项序,然后逐次将新得到的向量(赋值向量)投影到已经得到的向量张成的正交补空间中去
学位
“双碳”目标提出后,绿色支付市场迎来历史性的发展新机遇。作为链接数十亿个人用户和数亿商户金融消费的重要基础设施,支付行业市场主体纷纷试水“个人碳账户”,探索绿色支付撬动减碳市场发展大格局。本文在绿色支付的大背景下,通过具体案例分析个人碳账户现有的发展模式及面临的挑战,最后借鉴国际上个人碳账户的发展经验,对个人碳账户未来发展提出畅想和建议。
期刊
本文是主要利用配置法研究求解双比例时滞Volterra积分泛函方程。首先给出了双比例时滞Volterra积分泛函方程(简称TDVIFEs)解析解的存在性、唯一性和正则性分析。随后,我们给出了其配置解的存在性、唯一性分析。然后研究了配置法可达到的收敛阶及相应的误差估计。最后,我们给出了几个数值实验来验证我们的理论结果,数值结果符合理论分析。
学位
信号的传输与控制已经渗透到社会生活和国民经济的各个方面.在国防军事、航空航天、工程技术和医学等众多领域都有非常重要的应用Van der Pol振荡器是一类特殊的电路系统,在信号的传输与控制中有着非常重要的作用.该电路系统的数学模型是一个微分方程,当输入低频信号时,能输出高频的脉冲解(spike solution)或峰波.工程师们在实际设计中最为关心的问题是如何精确地控制峰波的个数.本文中,我们将用
学位
N体问题是天体力学中一个重要的研究领域,同时对数学家而言,它也是存在很多神秘的领域,正是他们积极探寻的领域.N体问题是十分复杂且困难的问题,至今仍有很多问题尚未解决,只有N=2的二体问题得到了完整的解决.然而中心构型正是研究N体问题的重要工具,其已经有一百多年的历史,但结果并不完整,只有当N=2,3时的N体问题的中心构型得到了完整的结果.N=4时的四体问题我们知道其分类是有限的,但具体形式仍然不能
学位
摄动方法在数学物理中有重要而广泛的应用.由于对某些特殊的问题,正则摄动方法是无效的,因此必须寻找各种各样的奇异摄动技巧.近百年来,数学家,物理学家和工程师们针对各种具体问题,发展了很多种摄动方法,如多尺度法、伸缩坐标法、匹配渐近展开法、平均法、WKB方法、中心流形方法等等.但这些方法都有一定的局限性,从而影响了它们在实际问题中的应用.上世纪五十年代,一些物理学家在处理光子传播中出现的大动量行为时,
学位
This thesis is a survey of the recent results in studying the boundary value problems of ordinary differential equations with integral boundary conditions. We briefly overviewthe resent situation for
学位
尽管现在有多种多样的蛋白表达系统可供选择,但是重组蛋白在大肠杆菌中的可溶表达仍然是困扰大家的一个难题,所以我们需要针对难以可溶表达的蛋白建立一种好的表达系统。随着对大肠杆菌中蛋白质折叠机制的深入研究,目前已经找到了一些提高重组蛋白在大肠杆菌中可溶性表达的方法。其中,融合表达策略是最常用的方法之一。 在本论文中,我们进行了一种人SUMO融合表达系统在促蛋白可溶性方面的研究。通过利用两种不同的
学位
在自然科学的许多领域中,很多现象是用抛物型方程或方程组描述的.如热传导以及其它扩散现象、化学反应、某些生物形态、各种粒子的输运等等.由于许多问题规模较大,因此,用并行算法数值求解抛物型偏微分方程问题具有重要的理论意义和应用价值. 古典显式具有理想的并行性,非常适合于并行计算,但它是条件稳定的,特别是在多维问题中,计算的时间步长受到苛刻的限制.古典隐式和Crank-Niclson格式是绝对稳
学位
水泡性口炎(Vesicular stomatitis, VS)是由水泡性口炎病毒(Vesicular stomatitis virus, VSV)引起的人畜共患的病毒性传染病,临床上以在感染动物的舌、唇、颊、乳头和蹄冠等部位出现水泡和溃疡为特征;人偶发感染,出现类似流感样症状。该病在北美和中美首次爆发后,逐渐传播到南美、非洲、欧洲以及亚洲的一些国家和地区,我国也有该病的报道。为了给该病的防治提供确
学位