基于机器学习算法和癌旁组织的癌症诊断分类研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:cchmily2624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着发病率和死亡率的上升,恶性肿瘤一直是全球首要的致死因素。准确的癌症诊断有助于揭示肿瘤发展的机制,并为癌症患者确定合适的治疗策略。DNA甲基化是研究较为广泛的表观遗传修饰,与癌症发生机制有关。先前的研究大多将肿瘤组织的DNA甲基化作为生物标志物用于癌症诊断。然而,癌旁组织的DNA甲基化在癌症诊断中的潜在作用研究较少。癌旁是肿瘤生长和转移的起点。已有研究表明,癌旁组织与肿瘤的发生发展密切相关。因此,本文提出使用极端梯度提升(extreme gradient boosting,XGBoost)算法和癌旁组织的DNA甲基化数据对癌症进行诊断分类。本文的主要研究内容如下:(1)通过XGBoost算法建立的癌症阶段分类模型。根据癌旁组织的DNA甲基化数据,基于XGBoost算法建立了用于区分肿瘤病人的早期和晚期的模型。相比另外四种机器学习模型,XGBoost模型在9套癌症数据集中都得到了最高的AUC分数,分别是0.780(KIRC),0.516(BRCA),0.819(THCA),0.658(HNSC),0.600(KIRP),0.565(LUSC),0.721(LIHC),0.735(COAD)和0.650(UCEC)。(2)肿瘤阶段相关的关键位点的识别与分析。使用XGBoost模型识别与癌症阶段进展密切相关的重要的Cp G位点。此外,对这些重要的Cp G位点进行GO分析,研究发现了与肿瘤发生发展机制相关的细胞过程和信号转导通路。(3)构建癌症类型分类模型。针对癌旁组织的DNA甲基化数据,基于XGBoost模型构建了用于区分不同的癌症类型的分类器,在从TCGA数据库获取到的9套数据集上对该模型进行测试。为了验证该分类器的性能,在独立GEO数据集上对该模型的性能进行了评估。结果表明,XGBoost模型能够以100%的准确率区分TCGA数据集不同癌症类型的样本,以86.1%的准确率区分GEO数据集不同癌症类型的样本。结果表明,对癌旁组织DNA甲基化的研究有助于帮助研究者理解癌症进展机制和发现新的生物标记物。当肿瘤组织难以获取时,癌旁组织可作为其替代组织用于癌症诊断。
其他文献
自新时代体教融合提出以来,学界已围绕其开展了诸多研究。本研究以“2W1H”知识框架为脉络,对现有的体教融合研究成果进行了梳理、归纳,并提出相应展望。研究表明:在“何为”层面,既有研究多从体教融合的概念、内涵和价值等维度对进行系统概述;在“为何”层面,体教融合的创设体现出国家、体育和青少年个体三者全面统一的生成逻辑;在“如何”层面,学界则较多关注其实施的影响因素与具体策略。未来可从强化体教融合基本认
期刊
卷积神经网络是目前深度学习领域重要的研究方向之一,广泛应用于图像分类、图像分割以及目标检测等领域,尤其在图像分类任务中可以达到更好的识别效果。而图像分类的准确率深受网络结构和参数的影响,所以对于网络结构以及参数优化问题的研究具有非常重要的意义。人工设计网络结构通常需要专家的设计,这个过程耗时并且容易出错。因此神经架构搜索作为一种自动搜索网络架构的方法受到了广泛应用。差分进化算法作为NAS的一种搜索
学位
高光谱遥感图像集地物的空间信息和光谱信息为一体,具有广泛的应用前景。随着我国综合国力的增强和卫星应用的开展,对高光谱遥感技术的关注达到了新的高度。异常检测作为重要的应用之一,目的是在含有大量背景像元的高光谱图像中识别出异常的目标像元,本质上是二元分类问题,其性能受到检测算法本身以及二元分类阈值划分方式的影响。本文从无先验知识的异常检测出发,研究基于高斯混合模型的异常检测方法。对于复杂背景的图像,尤
学位
水中存在大量悬浮粒子和可溶性物质,使光线在水下传播过程中产生散射效应和吸收效应。随着场景深度的增加,散射效应产生的后向散射光会不断增强,而目标场景的反射光被逐渐削弱,导致水下图像出现细节模糊、对比度降低的现象。此外,水体对不同波长的选择性吸收,导致水下图像出现严重的色彩偏移,降低了图像的视觉效果。这些退化的图像严重降低了获取水下目标有效信息的准确性。因此,为了提高水下图像的质量,获取更多有价值的信
学位
<正>2008年,是省委政研室各项工作的"提升之年"。一年来,在省委的领导下,我们认真学习贯彻党的十七大和省第十二次党代会及历次全会精神,坚持以邓小平理论和"三个代表"重要思想为指导,全面贯彻落实科学发展观,深入实施"创业富民、创新强省"总战略,紧紧围绕给省委"当高参、献良策"这
期刊
通过文献资料法、逻辑分析法、实地调查法,对体教融合的时代背景进行梳理,并对青少年体育发展的现实困境进行研究.结果显示,在当前形式下,青少年体育发展存在一定的问题:学校体育功能的单一性和边缘化、教育和体育系统的利益诉求不同、竞技体育目标的功利性、社会力量薄弱.为此,要强化责任主体,加强各主体间的包容性与能动性、强调“健康第一”的理念,培育“五育青少年”、完善青少年公共体育服务体系,落实多方力量的联动
期刊
在国家提倡体教融合的大环境下,深入贯彻体教融合是深化体育专业教育改革的必由之路。篮球普修课是体育专业的主干课程,实践与理论相结合的教学模式使该门课程具备了体教融合教学改革的条件。采用案例分析法、数理统计法对集美大学篮球普修课的现状进行研究,结果显示:普修课在教学过程、课时量分配、教学设施等方面存在不足,其体教融合改革处于初步阶段。建议:以体教融合为目标完善体育专业培养方案;深化“育体”和“育智”的
期刊
在研读我国关于促进青少年健康发展相关政策文件、研究成果和文献资料基础上,通过实地走访,对青少年健康发展现状进行调查。研究分析《关于深化体教融合促进青少年健康发展的意见》政策的执行动力、需求动力和执行障碍,调查了解各地方政策执行的综合环境和执行主体认知的现状。通过执行主体的一致性、执行对象的方向性和执行资源的保障性,建立中央政策指导→地方政策配套→学校主体执行→家庭共同参与的协同执行机制主干线;整合
期刊
伴随着感知技术的广泛应用,产生了一类包含时间和空间属性的大数据集,这类数据在时间维度具有连续性和单调递增性,在空间维度具有区域临近性,存在严格的顺序依赖关系,称之为时空大数据。对时空大数据的分析处理一般不依赖于关键字匹配,通常是在动态变化过程中对时间范围加空间区域的查询。常规大数据技术无法很好的应对时空大数据的动态性和关联性等复杂特征,限制了对实时可变的时空大数据进行特征提取的效率以及相关技术的应
学位
海运属于物流运输行业最为重要的方式之一,在海运贸易往来中,最常用的通讯方式是通过邮件交流。海运邮件中的内容错综复杂,每个人书写邮件和表达信息的方式大不相同,通过人工方式进行阅读、整理、分析需要花费大量的人力和时间成本,而且人工分析方式存在太多不确定性和情感因素,有可能会导致效率十分低下,分析不准确的情况,因此海运领域的邮件分析系统化显得尤为必要。在海运邮件分析系统架构选择方面,传统的单体架构中的代
学位