基于单类支持向量机的拷贝数变异检测方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:clhhjq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组变异与人类复杂疾病/性状具有密切联系,对其进行合理的分析对于疾病致病机理的研究具有重要意义。拷贝数变异(Copy number variation,CNV)是基因组变异的一种重要形式,在癌症基因组变异中占相当大的比重,其长度往往在几千碱基(KB)至几百万碱基(MB)之间甚至更长。众多研究表明,基因组CNV往往隐含了癌症驱动基因或抑制基因。在肿瘤样本中对CNV进行准确的检测,能够对癌症疾病的分析与诊疗提供关键信息。当前,基于基因变异分析的癌症精准治疗已成为常规手段。针对某个癌症患者样本,医生往往会提取癌细胞组织,通过测序技术获取相应的DNA序列信息,进而为CNV的分析与检测提供数据基础。然而,考虑到测序成本,癌旁组织(即该患者的正常细胞)未必总是会被提取,因此,研究面向单个肿瘤测序样本的CNV检测方法具有重要意义。新一代测序技术(Next-generation sequencing,NGS)能够以极高分辨率进行基因组测序,对于CNV检测具有天然的数据优势。然而,NGS数据的大体量及复杂性,以及CNV结构本身的复杂性,给CNV的准确检测带来巨大的挑战。对于NGS数据,基于读段深度(Read Depth,RD)信息的CNV检测方法是目前最常见的方法,该类方法利用NGS数据与标准序列比对后得到的Read Count信息(表示每个位点成功比对的次数)的异常来区分CNV。本文以NGS数据为背景,研究基于RD信息并面向单个肿瘤测序样本的CNV检测方法,主要工作包括以下两个方面:(1)设计基于单类支持向量机(One-Class SVM)的CNV检测方法CNV_OCSVM,该方法将CNV检测问题抽象为单分类问题,其主要流程如下:首先将NGS数据与参考序列比对后提取出RD信息作为样本集,从样本集中随机取得一定长度的RD值,并与位置信息组成二维数据集训练单类SVM决策模型;使用决策模型预测全体样本点得到异常点,将每次检测得到的异常点在下次取样时剔除;通过多次迭代上述过程实现对样本集中异常点的“层层剥离”,最后将相邻异常点合并得到最终CNV区域。由于发生CNV的样本点数量远少于正常样本点,对全体样本进行随机取样通常能够反映样本集中全部正常样本点的空间特征,同时解决了原始样本集过大导致难以有效地训练单类SVM模型的问题。在训练模型时使用无松弛变量的“硬间隔”SVDD模型,保证了算法多次迭代的效率,也避免了原始SVDD模型中惩罚参数的选择;(2)通过仿真数据实验和真实数据实验对CNV_OCSVM方法的CNV检测性能进行验证。仿真数据实验结果显示,本方法相比同类方法在大多数仿真数据集上都有最高的召回率,并且能保证较高的准确度,验证了本方法能够检测出更多RD值差异不明显的变异区域,并且对测序数据中出现的随机扰动的边界位置有更好的包容性,能够有效地降低对扰动区域中正常样本点的误判。在真实数据实验中本方法的检测出的CNV记录数较少但与比对方法的检测结果的重合度较高,说明本方法相比同类方法在准确度上具有一定的优势,检测出的CNV区域具有较高的质量和可靠性。
其他文献
癌症的诊断与治疗是目前全人类所共同面对的难题。现如今,全球范围内癌症死亡率与日俱增,对癌症进行早期诊断是降低死亡率的有效手段。目前癌症的常规诊断方法有癌症标记物、病理学诊断和影像学诊断等,但这些方法有其相应的局限性,如癌症标记物无法同时满足敏感性、特异性和易于监测等要求;病理学、影像学诊断结果依赖于医生的临床经验,存在漏诊误诊风险。近年发展起来的高光谱显微成像(HMI)技术将高光谱成像与显微成像相
学位
仓储管理是物流运营过程中必不可少的一个重要环节,随着大数据与信息技术的发展,新兴仓储技术的形成与发展可以带动整个物流产业技术范式的变革。了解技术的发展趋势,及时、准确地捕捉新兴技术的发展主题可以辅助科研人员确定相关研究方向,促进企业或政府等组织依据技术发展的新兴趋势提前制定正确、有效的发展策略和相关政策。本论文以仓储领域为研究对象,系统地探究了新兴技术主题的识别框架和融合结构与内容属性的异质科研合
学位
溶解性有机质(DOM)广泛存在于土壤、水体等环境介质中,是地球上分布最广的有机物质之一。DOM具有复杂多样的结构,可与环境污染物发生相互做用,介导其在环境中的赋存、迁移和反应。由于含有具有光化学活性的基团,DOM可以在太阳光照下发生一系列光化学反应。其可通过光敏化反应产生多种自由基,这些自由基可以降解水环境中的有机污染物,或影响具有重要环境意义金属离子的形态和归趋。DOM光照生成的自由基还可以诱导
学位
跨境电子商务已经成为了促进经济增长的重要方式,2021年,我国跨境电子商务的进出口总额达到1.98万亿元,进出口跨境电子商务的发展促进了我国产业结构的提升优化,驱动了相关产业的创新发展,为我国外贸企业开拓新市场提供了重要渠道。消费者风险感知是影响消费者购买意愿的重要因素,在线评论中包含着大量的用户体验信息,是影响消费者风险感知和做出购买决策的重要依据。因此,基于在线文本评论识别跨境电子商务背景下消
学位
当光透过雨雪、烟尘、磨砂玻璃等复杂介质时会发生散射,导致相机上仅能接收到杂乱无序的散斑图案,无法依赖传统的光学成像方法辨别目标信息。近年来研究人员提出了一系列方法,以恢复出散斑图案中隐藏的目标信息,实现透过散射介质成像。散斑相关成像方法作为新兴技术中的一种,由于具备单帧、非侵入式成像、光路设计简单等优点受到研究人员的广泛关注。然而,该方法的成像范围受到散射介质中光学记忆效应的限制,超出光学记忆效应
学位
空气中粒子之间频繁的碰撞和摩擦都会致使粒子带电,对带电粒子的散射特性与逆散射研究将有助于遥感、成像及大气光学的发展。Mie理论能够精确地计算平面波入射的粒子散射特性,但只能得到总体散射之后的结果,使用Debye级数展开(DSE)方法则能对粒子的每个散射过程加以解释分析。具有独特光学特性的石墨烯涂层粒子通过Drude-Sommerfeld模型转化亦可将其认为是一种特殊的带电粒子。贝塞尔光束是一种沿着
学位
随着越来越多人为设计的复杂场景出现,对这些结构进行测量维护的需求便不断上升,而通过人工测量维护的成本较高。利用计算机和一些传感器设备,三维重建技术可以将这些场景做高精度建模,有助于对这些场景分析和维护。目前三维重建技术主要分为主动式三维重建和被动式三维重建,主动式三维重建依赖于传感器如深度相机,激光雷达等主动测量深度的设备获取场景的深度信息,使用时成本较高,深度相机的精度和分辨率目前都难以用于大场
学位
风格迁移是一种自动生成艺术图像的技术,可以将真实拍摄的照片转换成具有某种艺术风格特点的图像,并且保持大致的内容不变。在工业上的动画CG制作、动漫电影制作、趣味相机软件等领域,风格迁移技术凭借着自动化、高效率、高灵活度等特点已经有广泛的应用。但是风格迁移技术存在重大的限制,即每个算法模型只能对一种艺术风格进行迁移,这导致了模型的可复用率极低,在工业场景上的应用也受到不小的限制。而任意风格迁移方法的出
学位
红外成像系统因其具有适应性强、隐蔽性好等优点,并随着其快速的发展和功能的完善,被应用于很多领域。为了提高红外成像系统的性能,一般采用高于12bit的模数转换器,获取高动态范围图像,无法在传统低动态范围显示设备上正常显示,且红外图像有对比度低和信噪比低等问题,导致图像质量较差。红外高动态图像细节增强算法致力于解决上述问题,目前主流的研究方法是基于分层的思想,但是存在梯度反转和光晕等现象而影响图像质量
学位
红外辐射是频段位于可见光和太赫兹微波之间的一类电磁波,温度处于绝对零度以上的物体,都会产生具有一定强度的红外辐射。基于红外探测基本原理,红外成像能够完成全天时探测任务,因此红外探测在很多领域得到了广泛的研究与大规模的应用。由于红外光学镜头、焦平面阵列响应特性与制备工艺、模数信号处理电路等多方因素影响,得到的红外图像难以达到理想效果,存在非均匀性噪声大、信噪比低、边缘细节模糊等问题。随着基于大数据驱
学位