基于序列拼接的基因组插入变异集成检测

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:sivi1818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,出现了很多应用高通量测序数据的结构变异检测方法。由于高通量测序本身的局限性,例如片段较短、测序误差偏大等因素,常规的检测方法存在较大的局限性,检测精度和敏感度不够。针对这个问题,本文主要针对插入变异,提出了一种基于序列拼接的基因组插入变异集成检测方法,取名为ISALins。本文的主要内容如下:(1)设计基因组插入变异检测流程,分析了检测流程用到的实验数据。鉴于千人基因组发布的插入变异数量太少,本文通过编程实现生成实验要用到的插入变异标准集。为了全面验证实验的检测效果,根据实验需求准备了 NA12878个体真实测序数据和变异基准数据,仿真数据和真实数据为本课题奠定了数据基础。(2)分析了插入变异的片段特征,提出了一个聚簇支持插入变异片段的聚簇算法,保证了后续序列拼接和变异检测的有效性。同时提出一种解决基于De Brujin图序列拼接算法中重复序列的有效策略。(3)提出了一种基于序列拼接的插入变异集成检测策略,在仿真数据和真实数据上分别进行了实验。该策略的实施分为四个阶段:第一阶段,为了在保证检测敏感度的情况下,提高长插入变异的检测精度,通过融合多个工具的检测结果得到一个初始插入变异可疑断点集合;第二阶段,通过在每个可疑断点附近聚簇OEA片段,并进行软切片段(soft-clipped read)分析来得到高质量软切片段;第三阶段,利用基于De Brujin图的方法来进行局部拼接,通过使动态k-mer和k-mer频率分析策略来消除基因组重复序列造成的错误拼接问题。第四阶段,通过将重叠群片段contigs使用比对工具bwa和blat和参考基因比对后进行插入变异检测。实验结果表明,相对于传统的插入变异检测方法,本文所提出的策略对高覆盖度和低覆盖度测序数据的变异检测效果良好,在一定程度上提高了结构变异检测精度。
其他文献
信用卡业务能够为银行带来大量收益,在商业银行业务体系中占据着举足轻重的地位。我国信用卡市场还在初级阶段,中国信用卡产业发展越来越快且交易量在2018年已经达到了38.2万亿。银行在管理信用卡风险时暴露出诸多问题,例如技术手段落后、管理机制存在缺陷等。为确保金融行业实现健康发展,银行必须采取积极有效的措施控制和管理信用卡风险。理论界和实务界已经将信用卡风险管理作为一个重要研究内容,本文主要对Z银行开
人群大规模聚集的场所内一旦出现突发事件,极易引起不良情绪在人群中的传播,最终可能导致大规模的人群骚乱甚至人群踩踏事故。因此探究突发事件下密集人群中情绪传播的动力学特征及相关因素对疏散效率的影响,对于实现人员密集场所的人群管控,降低人员死伤,保障人员安全性具有十分重要的意义。本文首先以2010“爱的大游行”事故中的两类人群运动特征为依据,建立考虑行人心理情绪状态以及运动过程中情绪感染的人群运动模型,
国家提倡一对夫妻生育两个子女,2016年中国家庭迈入二孩时代。独生子女面对一个新的事实:从独占所有的爱到学会分享,对长子女而言无疑是巨大的挑战。有必要探索二孩出生前后,
2016年7月,国家发改委发布《中长期铁路网规划》,勾画新时期建设“八纵八横”高铁网的宏大蓝图。在2016-2025年这10年里,第一个五年,铁路网将覆盖80%以上的大城市,其规模会达到15万公里,高速铁路占3万公里;第二个五年,铁路网规模达到17.5万公里左右,其中高速铁路3.8万公里左右,网络覆盖进一步扩大,路网结构更加优化,骨干作用更加显著,更好发挥铁路对经济社会发展的保障作用。这种形势将带
能源危机和环境污染问题日益严峻,而传统内燃机节能技术的提升空间正接近极限,因此目前的汽车节能技术主要聚焦于新能源汽车。混合动力汽车兼具纯电动车低碳化和燃油车强续航
2018年以来,中央陆续出台各项政策,要求对标世界最高开放水平,支持海南建设自由贸易港,实现资金、人员、货物、服务、信息等生产要素的高度自由流动,并实现“零关税、零补贴、零壁垒”。A公司所在的海南市场调研咨询行业,在享受市场需求不断增长红利的同时,也面临竞争不断加剧的挑战。抓住机遇,则能不断扩大企业所占市场份额,反之企业市场份额则会缩减,形成不进则退的局面。内部环境方面,当前企业的市场开发能力和专
群体行为分析是视频内容理解的一个重要应用领域。从人群密集场景的监控视频中自动学习得到场景中常见的行为模式,是群体行为分析中的一个核心任务。由于这一类场景中目标物
《茶馆》是中国话剧史上的瑰宝,作为第一部走出国门的话剧作品,其译本研究不断引起学者的关注。《茶馆》展现了老北京人和北京市井文化特有的交际话语,其中不乏丰富的文化负载词,但却很难在目的语中找到对应的英文,因此成为翻译过程中的难点。本研究选取英若诚的《茶馆》英译本,以关联理论为理论基础,探讨译本中文化负载词的翻译。关联理论最初由斯珀伯和威尔逊(Dan Sperber&Deirdre Wilso
习近平新时代中国特色社会主义思想是马克思主义中国化的最新成果,是新时期媒体进行主题宣传报道的重要内容。如何做好这一重大主题宣传报道既是在考验媒体人的实践能力也是摆在研究者面前的重要理论问题。本论文基于议程设置理论,即媒体议程会影响公众议程从而建构起对某一议题的共识,以新疆广播电视台“三新”专栏报道为例,研究其媒体议程设置,以其通过地方媒体报道实践的研究对更好地进行这一重大主题宣传报道有所启示。论文
近年来,企业间的竞争越发激烈,归根结底是企业创新能力的竞争。员工创造力不仅是提高企业创新能力的重要来源,更是决定企业是否能获得可持续生存发展的基础。因此,国内外众多学者关注员工的创造力。但是,较多研究集中于如何激发提升员工创造力,对影响员工创造力的不稳定因素缺少关注。伴随着无人机、无人超市、机器人客服等人工智能的快速发展,人与人之间、机器与人之间的竞争,使得工作中充满了较强的不安全感。有研究认为员