基于MapReduce的无序列比对全基因组系统发育树构建算法

被引量 : 0次 | 上传用户:shikongqidian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来二代高通量测序技术的发展和普及,基因组测序成本变得越来越低,大量不同生物的全基因组数据被陆续测得并公布了出来,导致了生物信息学数据的规模呈现出爆炸式增长。如何利用计算机技术从这些数据中挖掘出有价值的信息,成为了近来生物信息学所关注的主要热点之一。系统发育树的构建是分子进化分析中的重要一环,它详细而且具体地阐述了单元间的进化关系。传统的系统发育树构建算法需要首先进行多序列比对,然而由于该过程的时间复杂度非常高,导致了这类方法无法直接运用于全基因组的发育树构建。为了解决多序列比对带来的诸多弊端,人们又提出了一系列的无序列比对算法,用于构建系统发育树。基于MapReduce技术,本文提出和实现了一个新的无序列比对算法,该方法是专门为了处理生物信息学大数据而设计的,所以可以快速高效利用生物的全基因组序列进行系统发育树的构建。最后通过一系列的实验证明,本文提出的方法相比于其他的无序列比对算法,在处理基因组规模的数据时,需要更少的运行时间就可以得到一颗高质量的系统发育树。事实说明,MapReduce在生物信息学中的恰当使用,可以极大的帮助科研人员对现今存在的越来越多的生物大数据进行高效而准确的信息分析和数据挖掘。
其他文献
国内外最新研究表明,子宫内膜异位症(Endometriosis,简称EMS),尤其是轻症患者,非机械性障碍导致不孕的机理多与患者肿瘤坏死因子(TNF-α)和细胞介素6(IL-6)增高有关,妇瘤Ⅲ号
糖尿病肾病是糖尿病的并发症之一,在其发病过程中都伴随着复杂的机体代谢紊乱性改变,目前糖尿病肾病肾损伤的确切发病机制尚未完全明确。本文综述了潜在的糖尿病肾病治疗靶点
为了在建筑设计中协调建筑能耗和舒适度,以一矩形平面布局的民用住宅为案例,选择与建筑能耗和舒适度密切相关的若干个设计参数,借助于Energy Plus全能耗模拟分析软件,生成样
还原染料主要用于纤维素纤维的染色,目前国内外对还原染料的需求量随着社会经济的发展而越来越大。此类染料的染色中需使用还原剂将其变为与织物具有亲和力的隐色体,传统的染
SHT11是瑞士Sensirion公司生产的具有I2C总线接口的单片全校准数字式相对湿度和温度传感器。该传感器采用独特的CMOSensTM技术,具有数字式输出、免调试、免标定、免外围电路
<正>群众为纪检部门提供线索,帮助纪检部门以最快的速度打击腐败分子,是群众对纪检部门的信任,将心比心,前不久,闻喜县纪委出台了"举报反馈制度",采取面谈、电话、邮箱等方式
阅读是学生吸收英语知识,了解英美等国家文化的主要途径。阅读是高中阶段英语教学的重点和核心所在。《高中英语教学大纲》与《英语课程标准》也指出:高中英语教学的目的侧重
电子倍增CCD(通常记为EMCCD)是一种具有高速读出能力的微光成像器件,为了实现它的高速读出功能,需要配备与之相应的高速数据传输通道。自动成像协会(AIA)在2013年初发布了用
本文通过对社区文化建设的定义和内容,分析了社区文化建设和基层公共文化服务队伍建设的关系,进而对我国更好更快的进行社区文化建设提出了自己的一些建议。
海上交通仿真系统是一个复杂的大系统,其中船舶到达模型是交通仿真系统的重要组成部分。根据交通流理论,船舶到达模型可以用船舶到达规律和船舶间时距分布规律来描述。为获取区