生物高通量测序片段拼接与分子标记识别算法研究

被引量 : 0次 | 上传用户:zxh87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速准确的获取生物体的遗传信息是生命科学研究的基石,基因组是生物体全部遗传信息的载体。测序技术能够获得基因组的遗传信息,进而较全面的揭示生物体的复杂性和多样性,因而在生命科学研究中具有十分重要的作用。随着科学的进步,下一代测序技术迅速发展并广泛应用,使得生物序列数据的获取效率和费用成本的快速下降都达到了前所未有的程度,这些对基因组的深度测序和重测序研究产生了极大的推动作用。序列数据生产速度越来越快,由此产生了数量巨大的生物序列数据,而如何高效准确的对大数据量的生物序列数据进行分析和比较,成为了生物信息学领域的新挑战。近几年来计算机运算性能的增长趋于缓慢,为应对大数据时代的需求出现了Map Reduce、Spark等云计算技术,但目前生物信息领域的各种工具和方法还未能充分利用这些新技术。因此,本文以序列分析为基础,利用Map Reduce技术结合序列比对、串和图等算法,深入研究了高通量序列拼接与分子标记识别两方面的几个问题,主要内容如下。(1)提出了基于Map Reduce的高通量序列数据的聚类分析算法。生物序列聚类可以为下游序列分析工作提供基础,高通量测序也为序列聚类提出了新内容和新挑战。针对这一问题,本文提出了基于两种相似度的结合Map Reduce技术的贪心聚类方法。首先,从相似序列会共享一定数量k-mer这一事实出发,本文提出了基于窗口内非交叠共享k-mer计数的相似度计算方法,可以过滤掉不相关序列间的比对计算,从而大幅度提高比对效率;然后,对于相似序列的精确比对,本文提出了基于共享k-mer扩展块的块比对相似度计算方法。利用本文方法可对大规模序列数据如EST、高通量测序读片段等进行聚类分析。(2)提出了基于序列聚类和Seeds Graph的高通量测序片段拼接算法。全基因组高通量测序数据的拼接,主要困难在于高通量序列数据读长短、数量大和错误率高。本文针对这三方面的困难提出了基于Map Reduce和序列聚类的全基因组de novo拼接方法Seeds Graph。该方法利用云计算平台解决数据量大的问题,用序列聚类将短片段以簇表示,并定义可容错的seed结构来纠正测序错误。然后利用seed为顶点建立的SeedsGraph图来指导测序片段的拼接过程。最后,本文采用路径相容分析技术和双端读片段信息方式解决重复序列导致的复杂路径问题。实验表明Seeds Graph有良好的可扩展性,可处理较大规模基因组的拼接问题。(3)提出了多供体高通量测序数据的基因组结构变异分子标记识别算法。目前对生物个体重测序的研究普遍存在测序对象数量较多而测序深度不够的现象。在这种测序个体较多但深度都不大的数据中进行全基因组结构变异识别,往往因为深度不够而不能获得准确的结果。本文针对这一问题,提出了基于多供体高通量重测序数据的全基因组结构变异识别方法。该方法利用Map Reduce技术解决数据量巨大的问题,结合双端读片段和读片段分隔方法进行结构变异事件的识别;利用改进的仿射空位罚分的半全局序列比对算法,预测结构变异精确的断点位置。(4)综合本文在序列分析的算法成果,设计并实现了基于同源搜索和集成分类的mi RNA分子标记识别方法。该方法利用已知mi RNA为参考,对EST或高通量测序数据进行同源搜索,使用RNAfold软件分析发夹环结构,获得粗略的mi RNA前体候选集。为了解决该候选集中假阳性率过高的不平衡分类问题,本文提出了基于投票机制的集成学习分类方法。利用已知mi RNA作为正例和适当选择的反例以不平衡数据分类问题的策略训练多种分类器,再集成为一个单独的分类器,并对候选集进行分类。利用该方法可得到输入数据集中高可信度的miRNA候选,可以用于指导下游mi RNA识别和分析的研究工作。
其他文献
根据我国煤矿最新建设形势,阐述了大型斜井提升运输技术与设备的特征和发展方向,以期为矿山工程技术领域的广大同仁提供参考借鉴。 According to the latest construction s
随着社会经济的不断发展,人们也越来越重视精神享受。比方说,在当前的社会中,各种电视纪录片也在逐渐增加。在观看纪录片过程中,观众不仅仅只希望能够了解事实,还希望能够通
目的:利用3TMRI技术研究高海拔地区藏汉民族正常成人心脏结构及功能;探讨高海拔地区世居藏族正常健康成人与移居汉族正常健康成人的心脏结构及功能有无差异。研究方法:收集并
<正>目的探讨首次发生脑卒中急性期合并的卒中后抑郁(post-stroke depression,PSD)的发生率、与血清中5-羟色胺浓度和多种相关因素的关系。方法病例资料采集,选用2007年6月至
会议
此次农交会期间,广东省副省长李容根作为本次农交会广东交易团团长,在广东贸易日暨成交项目签约仪式上,向国内外客商介绍了广东近年来农业发展的成果和进出口贸易情况,李容
<正>人工智能治理(Governance of AI)已经成为世界各国政府最重视的领域之一,只有在更广泛的维度和更深的层面上对人工智能进行良好治理,才能真正推进人工智能的安全可靠发展
英语阅读一直是大学英语教与学的一大难点,而阅读又是语言输入的一个重要途径,学生阅读技能的掌握多数是取决于课堂,因此英语阅读教学意义重大。英语阅读指导者应该先了解阅
在真空氛围中对烯烃嵌段共聚物(OBC)进行电子束辐照。探讨了吸收剂量对OBC交联程度、力学性能、结晶和二重形状记忆效应的影响。通过应力-应变拉伸性能测试、X射线衍射(XRD)
通过数值模拟讨论了圆环结构对多孔材料应变率效应的影响,计算结果表明,圆环结构与折板结构一样,同样存在结构的屈曲失稳,因此也具有应变率效应。只是其应变率效应不如折板结
策克口岸地处内蒙古自治区最西端的阿拉善盟额济纳旗境内,是按照中蒙两国政府协定,于1992年经内蒙古自治区人民政府批准开通的季节性二类陆路口岸,2003年10月中蒙会谈将其确