【摘 要】
:
二代测序技术(NGS)日渐成熟推动了基因组结构变异(SVs)检测技术的发展,而倒位变异作为基因组结构变异之一,研究对其进行检测的方法,在生物遗传多样性及医学研究中具有重要意义。通常用来检测倒位变异的策略归结为三种:读对技术、分裂比对策略与序列拼接,常规策略由于倒位变异固有复杂性而受到局限。因此,为了进一步解决现阶段策略受限、检测精确度和召回率不足等问题,本文创新性提出深度挖掘倒位变异的伴随特征,通
论文部分内容阅读
二代测序技术(NGS)日渐成熟推动了基因组结构变异(SVs)检测技术的发展,而倒位变异作为基因组结构变异之一,研究对其进行检测的方法,在生物遗传多样性及医学研究中具有重要意义。通常用来检测倒位变异的策略归结为三种:读对技术、分裂比对策略与序列拼接,常规策略由于倒位变异固有复杂性而受到局限。因此,为了进一步解决现阶段策略受限、检测精确度和召回率不足等问题,本文创新性提出深度挖掘倒位变异的伴随特征,通过支持向量机(SVM)和卷积神经网络(CNN)的支持分别在低覆盖度与高覆盖度测序数据上实现更精准的倒位变异检测,主要研究内容如下:(1)倒位变异发生时,产生独特的伴随特征。例如,双末端一对序列在参考基因中的映射方向相同、单端映射参考基因失败、软切片段发生、插入片段长度异常、序列中碱基映射状况不良和序列映射质量低下等等均为本文着重研究的倒位变异物理化特征。具体地,将物理化特征经特征表达后生成规范化数值特征,由主成分分析法(PCA)分析并验证提取的数值化特征对倒位变异检测的有效性。(2)本文提出一种特征挖掘与SVM分类器相结合,在低覆盖度测序数据下实现倒位变异检测的方法LCovSVM。LCovSVM首先收集常规倒位检测工具的结果作为候选倒位变异集,为了进一步强化特征性能,在提取数值特征后由卡方检验与经验相结合进行特征选择,所有候选变异区间均提取经选择的特征值。为解决基准变异库中被验证的倒位变异数量严重不足的问题,本文由仿真数据特征训练SVM分类器实现在真实样本上的倒位变异检测,特征选择与仿真数据训练的有效性均通过了十折交叉验证。(3)为了避免覆盖度与常规检测工具的局限性,本文创新性提出直接从真实高覆盖度样本的双末端数据而不是常规工具检测的倒位候选变异集中提取倒位变异特征,不再依赖常规检测工具,将特征转换图片后基于CNN模型检测倒位变异的方法HCovCNN。HCovCNN首先根据序列映射位置和方向初步筛选异常序列集,由此生成候选倒位变异集并评分,对得分超过阈值的候选倒位变异生成特征图片作为CNN的输入。本文提出一种数据集扩增与平衡策略解决基准变异库中被验证倒位变异数量不足与不平衡问题。本文构建循环交叉验证以确保所有样本作为未知变异测试集,在每一轮验证中将大部分样本及其基准变异与否作为训练集建立CNN分类模型并由剩余样本作为测试集,测试集中预测为正的候选变异构成最终倒位变异集,由此实现倒位变异检测。
其他文献
碱性成纤维细胞生长因子(basic fibroblast growth factor,bFGF)和血管内皮细胞生长因子(vascular endothelial cell growth factor,VEGF)可促进成肌细胞和血管内皮细胞增殖,
有限p群是有限群最基本和最重要的分支之一.我们都知道,极大类p群是正规子群最少的有限p群.这意味着在正规子群较少的意义上,极大类p群在有限p群中的地位类似于单群在有限群中的地位.因此极大类p群是一类重要的p群.本文研究了极大类p群的算术刻画问题.由六章组成.第一章是本文的引言.第二章是预备知识.第三章给出了极大类2群的算术刻画.第四章确定了指数为23的正规子群唯一的有限2群的结构.这解决了 Ber
MgH2具有较高的理论储氢容量(质量储氢密度为7.6 wt.%)、可逆的吸放氢性能等优点,被认为是极具应用潜力的储氢材料。但是,MgH2中Mg-H键的键能较高,导致其放氢温度高和动力学性
随着柔性电子设备的飞速发展,柔性智能可穿戴设备已经逐渐出现在人们的日常生活中,导电纤维也成为智能可穿戴领域研究的重点。目前在智能可穿戴上使用最广泛的导电纤维是金属
磁弹性问题在当今的高新技术装置中广泛存在,而目前高新技术中备受关注的就是微机电系统,这些系统大部分由铁磁、压电、导体等材料制成,研究微机电系统基础构件的磁弹性问题
煤化工生产中的合成气净化系统直接影响整个煤气化过程及后续工序的稳定运行。低温甲醇洗技术是目前脱除合成气中酸性气体较为成熟的技术,其冷能消耗较大。本文针对该问题提
Mg基储氢材料因其储氢量高和价格低而被认为是最具应用前景的储氢材料之一。但是,由于反应温度高和动力学性能差限制了它的实际应用。本文以三种改性碳球为添加剂,通过氢化燃
近年来,利用肿瘤微环境的独特性来设计具有相关刺激响应开关的纳米药物递送系统已经成为癌症治疗的有效策略,其中肿瘤组织的酸性微环境常被用于设计具有pH靶向的药物递送系统
图G的一个E-全染色是指使相邻点染以不同颜色且每条关联边与它的端点染以不同的颜色的全染色.对图G的一个E-全染色f,一旦Vu,v∈V(G),u≠v,就有C(u)≠C(v),其中C(x)表示在f下,顶点x的
转录激活因子WRI1在油脂合成调控中起关键作用。本研究结合山核桃胚转录组数据,通过本地BLAST和PCR方法分离克隆了CcWRI1A和CcWRI1B并利用实时定量PCR方法、生物信息学方法和