多组学数据融合的甲状腺癌患者生存期预测

来源 :安徽财经大学 | 被引量 : 0次 | 上传用户:alicial
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
甲状腺癌是目前世界上发病率增长速度最快的实体肿瘤,社会各界尤其是医学界愈来愈关注甲状腺癌。我国甲状腺癌患者病例数逐年升高,且我国甲状腺癌患者的5年生存率远不及欧美等发达国家。因此,有必要使用一定的方法对甲状腺癌患者的生存期进行精准预测,精确的生存期预测一方面能够帮助患者了解自己的身体状况,缓解焦虑,另一方面可以帮助医疗人员制定精确的医疗计划,做到有的放矢,确保治疗的有效性,提高癌症患者的5年生存率。为了更准确地预测甲状腺癌患者的生存期,本文从TCGA数据库中下载了与甲状腺癌相关的组学数据(RNA、mi RNA、DNA甲基化、拷贝数变异)和临床数据,提出了一个基于数据挖掘方法的生存期预测框架,该预测框架侧重于处理数据集中的类别不平衡、特征维度高以及多组学数据融合问题,具体思路如下(1)使用综合采样SMOTETomek算法处理数据集中类别不平衡问题;(2)使用差异表达分析法及基于树模型的集成学习算法对高维的组学数据进行特征选择,得出相应的最优特征子集;(3)借鉴启发式变量选择中的向前选择法对各组学数据进行融合,寻找最优的组学组合;(4)使用支持向量机分类算法对癌症患者的生存期进行预测。本研究使用Python编程语言实现上述所有操作,并使用AUC值、召回率及其他相关指标评估预测性能。本文使用RNA组学数据进行初步探讨时发现,本研究提出的预测框架对甲状腺癌患者的5年生存期进行预测时有很好的效果,基于SMOTETomek算法处理类别不平衡问题后预测模型的AUC值从0.6564提高到了0.7683,基于平衡数据集使用Ada Boost算法进行特征选择后AUC值达到了0.8185,预测性能明显提升。本文在对多组学数据进行融合时,先使用所提出的预测框架对各组学数据进行处理,得到各组学数据中对癌症患者生存期影响最大的特征子集,然后使用向前选择法对多组学数据进行融合,得到了两种最佳组学组合:(1)DM+mi RNA,其AUC值为0.9768,精确率为1;(2)DM+mi RNA+Clinical,其AUC值为0.9768,召回率为1。两种组学组合都能对癌症患者的生存期进行精准预测,都高于单组学数据的AUC值,且有各自的侧重点。医疗人员在实际应用中可以根据实际需求选择合适的组学组合进行精准地医疗诊断、制定合适的医疗方案。
其他文献
随着计算机技术的巨大进步,财务文本信息近年来开始受到研究者们的关注。财务文本信息的研究目前主要有文本结构、文本可读性、文本语调等等。年报中的文本信息比如管理层讨论与分析一节中关于公司当前业绩的总结,未来盈余的预测、以及公司未来的战略部署等都可以给以投资者为代表的外部信息使用者提供大量的决策信息。财务文本信息范围也很广泛,不仅仅包括管理层讨论与分析,还有公司公告以及一些其他的会议文本,甚至分析师报告
学位
原油被誉为“黑色黄金”,对国民经济正常运行起着重要作用。当前,全球经济及金融形势发生复杂深刻变化、地缘政治问题频繁发生、新冠疫情复发等因素导致我国原油期货价格波动水平加大,极端风险溢出概率随之增加。原油是能化产品的基础原料之一,作为能化产业链的上层驱动器,油价波动会通过产业链传导对中下游的能化期货市场产生冲击,这将影响我国能源衍生品市场乃至原油化工行业持续健康发展。上海原油期货于2018年3月26
学位
长江经济带连接我国东部与西部,具有独特的地理优势和巨大的发展潜力,是全国重要的经济走廊,已成为支撑我国战略的综合实力最强的区域之一,人力资本和产业结构是长江经济带经济增长的重要驱动力。现有研究表明,人力资本水平和产业结构优化存在着双向的互动关系,且存在区域差异。如果人力资源和产业结构优化二者协调,会对社会经济良性发展产生关键作用。本文基于2006-2019年106个长江经济带地级市面板数据,建立P
学位
我国经济已由高速增长阶段转向高质量发展阶段,新动能是推动高质量发展的重要力量。长江经济带是推动我国形成优势互补高质量发展的先行区域,也是培育新动能、引领转型发展的创新驱动带。本文针对长江经济带区域,对其经济新动能发展水平进行测度分析,充分了解其发展状况以及区域差异,进一步定量分析影响长江经济带经济新动能发展的因素。这对于促进长江经济带经济新动能的发展具有重要意义。本文首先基于新动能的内涵,并综合相
学位
公路交通基础设施发展与农村发展一直是我国社会发展的重点,而二者之间的关系却鲜少有学者深入研究。自空间计量模型推广以来,学者们通过实证认为交通基础设施对经济增长、缩小城乡收入差距是存在显著的空间溢出效应,对经济集聚与产业集聚存在门限效应。然而,由于研究对象、研究方法的差别,对于空间溢出产生的方向及大小并未统一结论。因此,本文通过深入分析安徽省各地级市公路交通对农村发展的空间溢出效应和门限效应,对现阶
学位
经济规模的扩大,带来了自然资源的高度消耗,人类的生存环境面临威胁,转而制约了经济发展。过去粗放的经济发展模式不再适用于新时代。自党的十六大提出全面协调可持续发展战略开始,生态建设与保护逐渐提上了我国的重要工作日程。长江经济带作为推动我国经济社会高质量发展的排头兵,必须贯彻落实新发展理念,将生态建设与经济建设有机统一起来。在知识经济时代,经济发展更关注以人为本,人力资本对经济增长的贡献也逐渐提高,在
学位
如今,互联网已经成为人们日常生活的一部分,人们在享受互联网带来的便利的背后离不开推荐系统的帮助。但是随着用户在平台使用时间的增长用户的历史数据也越来越多,与互联网早期需要针对新用户的而着力解决冷启动问题相比,如今如何利用好已有数据来维持现有的成熟用户显得更为重要。针对这一问题,本文首先介绍了传统推荐算法的研究现状及发展趋势,然后详细介绍了目前常用的推荐算法及其改进。成熟用户在平台积累了更多数据更难
学位
互联网发展水平是衡量一个国家综合实力的重要标志,以互联网为代表的新一代信息通信技术代表着社会经济新的发展方向。区域间发展不平衡问题长时间存在则会不利于经济发展整体效率以及资源的有效配置,因而需要缩小区域间互联网发展水平的差距并使其协调发展。在我国经济社会发展步入“新常态”的大背景下,以生产资料为主的传统增长模式逐步减弱,经济增长方式急需转向依靠知识、技术创新驱动的新型发展模式,需要在注重速度的基础
学位
Armington弹性是用来衡量进口产品与国内生产产品替代难易程度的重要指标,在国际贸易政策评估方面具有十分重要的作用。传统研究在采用该参数评估中国外贸政策效果时大都借鉴欧美国家的数据,缺乏基于中国情境数据的实证检验,这可能导致评估结果的有偏,进而削弱结论对政策制定的指示作用。本文以18种农产品为例,采用1997-2019年中国农产品进出口数据,运用经济计量模型对这些农产品的Armington弹性
学位
在全球变暖的问题提出之后,国家相关部门一直参与气候治理行动之中,但是全球变暖所导致的高温热浪和干旱仍然不断发生,一直影响人们的日常出行以及日常生活。此外,这些极端天气在各个产业内都造成了不小的影响,其中对于农业生产来说,极端天气所造成的土地资源以及其他自然资源上的损失,还会恶化当前气候变暖的情况,进而导致极端天气愈发频繁,所造成的损失进一步扩大,从而形成一个恶性循环。气候变暖一直是一个全球性的问题
学位