基于深度学习和组学数据融合的乳腺癌生存期预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:jianyu128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,乳腺癌的发病率和死亡率持续升高,对乳腺癌患者进行精准的生存期预测已成为癌症研究领域的热点问题。准确的生存期预测能够为医务工作者和病人家属提供科学的治疗凭据,同时避免患者过度治疗所造成的医疗资源浪费。乳腺癌是一种恶性肿瘤疾病,它的产生和发展与基因密切相关。随着生物测序技术的进步,生物信息学领域积累了大规模组学数据,这为研究者全方位了解生物学过程夯实了基础。在乳腺癌生存期预测研究中,基因表达数据从微观生物学层面反映肿瘤的生物特性,对癌症预后和治疗有重要的应用价值。临床数据包含了丰富的病理学特征,为乳腺癌患者的生存期预测提供理论依据。如何有效地融合基因表达数据和临床数据,更准确地预测乳腺癌生存期,是癌症生存期预测研究领域中亟需解决的问题。然而,现有的乳腺癌生存期预测模型,往往使用单一的特征选择方法对基因表达数据进行特征提取,再进行简单的特征拼接融合,这不仅容易丢失重要的基因信息,还忽略了组学数据间的关联。因此这类方法具有一定的局限性。本文在现有乳腺癌生存期预测研究的基础上,提出了基于深度学习和组学数据融合的乳腺癌生存期预测模型。首先,通过非负矩阵分解的改进算法提取出与乳腺癌生存期相关的特征基因;其次,构建基于Attention机制的深度神经网络模型(Attention-based Multi-Nmf Deep neural network using omic data,AMND)来融合基因表达数据和临床数据;最后,在上述研究的基础上,构建了一种基于多尺度特征融合的深度神经网络模型(Multi-scale Feature Fusion Deep neural networks,MFFD)来获取不同尺度上的组学特征。实验结果表明,本文的方法相较于现有的乳腺癌生存期预测方法,具有更好的预测效果。本文主要完成以下三个方面的工作:(1)本文在非负矩阵分解算法的基础上,提出了一种基于非负矩阵分解算法的Multi_NMF特征选择算法。Multi_NMF方法不仅可以提取基因表达数据的高阶特征,还避免了由矩阵分解所带来的稀疏性和丢失重要特征等问题。实验结果表明,改进后的Multi_NMF方法能够选择出更多与乳腺癌生存期相关的基因,有利于提升乳腺癌生存期预测准确率。(2)为了获取更多的组学数据特征,本文提出了一种基于组学数据和Attention机制的深度神经网络模型来融合患者的基因表达数据和临床数据。作为Attention机制在乳腺癌生存期预测模型上的初步尝试,AMND方法考虑了不同数据间的差异性,通过计算临床数据和基因表达数据的相关性,自适应地融合来自不同特征提取方法的特征基因,从而提升乳腺癌生存期预测准确率。实验结果表明,AMND方法能够准确的预测出乳腺癌患者的生存期。(3)针对数据集样本数量小而导致模型不能有效学习的问题,本文提出了基于多尺度特征融合的深度神经网络模型。首先,使用AMND方法融合组学数据。其次,设计不同的池化层以获取不同尺度的特征。最后,将不同尺度的特征拼接融合。MFFD方法融合了不同粒度的组学数据特征,包含了更多的生物特征信息。通过在测试集上的性能评估,实验结果表明,MFFD方法进一步提升了乳腺癌生存期预测性能。
其他文献
随着现代经济飞速发展,尤其是电子商务平台的快速崛起,城市商品配送成为社会物流活动不可或缺的一部分,人们对物流配送服务的要求也在日益提高。车辆路径规划问题作为物流配
【目的】为寻找广西矿区潜在的对重金属元素的超富集植物。【方法】根据矿区的地貌和植被分布特征,对广西矿区土壤和植物的重金属含量进行调查,通过测定土壤和植物中的Cu、Zn
植物激素脱落酸(abscisic acid, ABA)不仅在植物的生长发育过程中而且还在植物对各种环境胁迫的反应中起重要作用。ABA可以引起活性氧(reactive oxygen species,ROS)的产生,
在传统同步整流Buck变换器中,主开关管的硬开关和同步整流管体寄生二极管的反向恢复问题会导致严重的开关损耗和电磁干扰(EMI)。为避免上述缺点,提出一种基于耦合电感的新型
肌生成抑制素是一种骨骼肌生长的负调控因子。是出Se-JinLee等(1997)在研究转化生长因子-β(TGF-β)超家族时,用该家族的蛋白质同源保守序列设计简并性引物,以小鼠基因组DNA为模板
胡利奥·科塔萨尔是20世纪拉丁美洲的著名作家,其代表作《跳房子》是一部探讨后现代语境下生存困境的长篇小说。作品从"天堂""人间""迷宫"三个角度展现了当时社会背景下青年一
公共空间生产的转型是个未被充分探讨的重要话题。结合马克思主义学者关于城市空间生产的观点,探讨我国从计划型城市到经营型城市的公共空间生产转型。结合公共空间生产转型
建立流域性的水源水质监测网是做好水源保护、保障饮水健康的必要条件 ,而利用沿岸城市自来水公司的水质化验力量则是建立水源水质监测网是经济而有效的途径
目的探讨急性ST抬高心肌梗死心电图与心肌缺血分级的关系。方法收集我院急性ST抬高心肌梗死患者,根据Birnbaum急性ST抬高心肌梗死缺血分级,将患者分为:3级缺血组和2级缺血组。
园林是城市重要的景观建设,园林景观不仅能够美化环境,还能带来一定的经济效益、生态效益。科学有效的维护管理方法措施,可以使得园林养护管理工作的水平和城市绿化环境的质