基于OPTICS的癌症体细胞拷贝数变异检测方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:net_goose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异指由基因组发生重排而引起基因组大片段的拷贝数增加或减少。它是一种最常见的结构变异,是癌症的重要致病因素之一。拷贝数变异可通过单样本、多样本或配对样本进行检测。其中,配对样本检测可以直接聚焦于与癌症相关的体细胞拷贝数变异,对研究癌症的发生原因、发展机制及靶向药物治疗具有重大意义。第二代测序技术提供了大量的基因组数据信息,然而因其测序数据的读长较短、复杂度较高等特点也为相关研究带来了极大的挑战。面向不同的研究场景已有各种检测算法被提出,但大部分方法仅在高覆盖度和高肿瘤纯度的测序数据上有着不错的检测效果,且难以检测出弱信号的拷贝数变异。如何从低测序覆盖度、低肿瘤纯度的测序数据中准确检测出拷贝数变异是当前基因组变异研究中的一大难点。OPTICS算法是一种基于密度的聚类算法,为样本集生成一个增广的聚类排序,从中可以得到任意结构的聚类,适用于检测弱信号的异常数据点。本文提出一种基于OPTICS算法的拷贝数变异检测方法CNV_OPTICS,研究如何提高对弱变异信号的检测能力,旨在提升对低测序覆盖度和低肿瘤纯度测序数据的检测效果。该算法面向第二代测序数据,基于读段深度(Read Depth,RD)策略的检测思路,以患者癌症细胞的测序数据为检测样本,癌旁组织的健康细胞测序数据为对照样本进行检测。CNV_OPTICS的核心思想如下:(1)采用多步预处理操作,降低第二代测序数据的高复杂度。利用配对样本的读段深度分布特征,计算患病样本与正常样本的读段深度比(-(64)),并对数据信号进行校正、过滤、缩放、平滑分割和重构。(2)基于密度对预处理得到的数据集进行聚类操作。利用基因组序列相邻位点的拷贝数具有内在相关性的特征,从局部区域出发,使用OPTICS算法将密度和信号相近的区域划分为同一聚类,提高对弱异常信号区域的敏感度。(3)利用变异信号与拷贝数的正相关性细分拷贝数变异区域,提出了新的统计量拷贝数变异比((1-(64))。计算每个聚类的拷贝数变异比,根据划定的阈值将检测出的拷贝数变异区域分为拷贝数扩增、拷贝数杂合性缺失和拷贝数纯合性缺失三种变异类型。本文将CNV_OPTICS和三种同类方法应用于仿真数据集和真实数据集进行对比分析。通过分析仿真实验结果,CNV_OPTICS在准确率,敏感度和F1-分数等度量指标上表现较好,相比其它三种算法具有一定的优势,且在低覆盖度、低肿瘤纯度的测序数据上依然具有良好的稳定性。此外,使用CNV_OPTICS对乳腺癌全基因组测序的真实数据样本进行检测,得到了与仿真实验相同的结论,验证了算法的有效性。
其他文献
随着深度机器学习与人工智能的迅猛发展,强化学习作为最接近“强人工智能”范畴的机器学习方法已成为近年来的热门研究方向。强化学习采用无监督的方式进行“试错”学习,智能体基于自身经验学习最优策略,无需预先标注好的样本或大量的先验知识,对于解决动态场景下的复杂问题优势明显,应用潜力十分巨大。目前,对于强化学习的研究主要集中于深度强化学习以及多智能体深度强化学习两个方面。对于深度强化学习,已有越来越多不同种
学位
近年来,随着云计算技术的不断发展,人们不再担心存储计算资源受限这一问题,但也随之导致了数据泄露事件的频繁发生,这时时刻刻提醒着人们需要对自己的数据信息进行隐私保护。通常,用户会选择将加密后的数据存储到云服务器中,但这种方式会导致对密文数据的检索变得非常困难。由此提出了可搜索加密(Searchable Encryption,SE)技术,它能在密文状态下对用户查询的关键字进行匹配检索,但如何使密文检索
学位
监控摄像头目前已被广泛应用于公共或私人场所,并在安防活动中扮演着重要的角色,但其带来的隐私安全问题也不能被忽视。监控摄像头通常被安装在酒店前台,超市收银台或售票处等公共场合的角落。在这些场合下,用户输入个人识别码(PIN)解锁或付款的过程可能会在有意或无意中暴露。一旦PIN被破解将会给用户带来严重的隐私泄漏问题和财产损失,然而,几乎没有监控设备的制造商意识到这一隐患。PIN是一种传统的基于知识的认
学位
随着大数据时代的到来,各行业在互联网技术的加持下迎来了蓬勃发展。海量的数据资源蕴含了丰富的实际价值,经过数据挖掘等技术的处理分析可以创造出巨大的社会以及经济价值。大数据技术给各领域带来便利的同时,将数据安全问题辐射到更广泛的领域。数据被盗、非法篡改、恶意传播等大规模数据安全事件屡见不鲜,资源的开发共享和数据的安全保护已成为数字经济时代长期存在的矛盾难题之一。数据库水印技术可以有效地保证数据库所有者
学位
癌症,是一类严重危害人类生命健康的复杂疾病,具有高度异质性。癌症亚型识别问题是癌症研究领域中最重要的问题之一,同一种癌症的患者在生存风险、对药物的敏感性等多个方面存在明显差异,这意味着癌症存在多种不同的亚型,因此研究癌症的亚型划分,能够为癌症患者提供准确的诊断和治疗。高通量测序技术的不断发展,使得测序的规模迅速扩大,并且测序成本极大降低,现已积累了大量癌症患者的基因组、转录组、表观基因组以及蛋白组
学位
信息时代的来临催生了人工智能技术的快速发展,为打破数据孤岛,同时避免传统机器学习模式集中收集训练数据带来的隐私威胁,联邦学习技术得以诞生。联邦学习由一个中央服务器与多个参与者组成,通过多次迭代共同训练一个全局模型。尽管前景看好,联邦学习应用到实际场景中时仍然遇到了很多的挑战,其中最为突出的就是异构问题与隐私问题。首先,联邦学习作为一种分布式机器学习框架,其训练数据在各个客户端的分布往往非均匀,数据
学位
人工智能时代的到来,让人们的生活变得更丰富和便利。深度学习作为人工智能技术中的一柄利器,为机器学习各个领域的发展开辟了新的天地,同时也解开强化学习发展的枷锁。强化学习是一种求取任务中的最优策略的方法。得益于深度学习,强化学习在诸多领域中都获得了里程碑式的进展,例如智能驾驶、机械控制、电子竞技等。多智能体强化学习作为强化学习不可或缺的一门分支,主要被用来研究多智能体合作或竞争的问题,在许多领域中已经
学位
近年来,随着云计算等相关技术被工业界广泛使用,公有云上的数据安全问题成为了一大研究热点。用户的银行交易信息、收入情况、医疗记录等隐私信息在云服务器上有可能被窃取、利用。为了彻底解决云端数据库数据不可信问题,全密文数据库应运而生。在数据传送、查询并返回给客户端的全过程中,服务器无法解密密文,从而有效保证了数据安全性。纯软件密文数据库通常需要借助密码学的相关加密算法实现密文查询运算,如使用顺序可见加密
学位
医学成像技术是将疑似病变部位与电磁场等介质相互作用,把疑似病变部位的组织形态以图像的形式展现出来的技术,医生能够根据医学图像直观地验证自己的判断,了解病变程度。磁共振成像凭借独到的优势在影像检查中的应用越来越广泛,高分辨率磁共振成像是医生进行准确诊断和后续疾病精准治疗的基础。然而,高质量的磁共振成像通常伴随着长时间的采集、患者的不适和资金的耗费等问题,因此,在不改变硬件配置或增加扫描时间的情况下,
学位
随着5G技术(5th Generation Mobile Networks,5G)和物联网技术(Internet of Things,Io T)的飞速发展,通信-感知-计算融合技术已成为新一代通信系统发展的新愿景。随处部署的Wi-Fi设备可通过简单方式获取信道状态信息(Channel State Information,CSI),由于CSI可以细粒度地描述室内环境中电磁波的多径传播情况,目前其已被
学位