论文部分内容阅读
近年来,乳腺癌的发病率和死亡率持续升高,对乳腺癌患者进行精准的生存期预测已成为癌症研究领域的热点问题。准确的生存期预测能够为医务工作者和病人家属提供科学的治疗凭据,同时避免患者过度治疗所造成的医疗资源浪费。乳腺癌是一种恶性肿瘤疾病,它的产生和发展与基因密切相关。随着生物测序技术的进步,生物信息学领域积累了大规模组学数据,这为研究者全方位了解生物学过程夯实了基础。在乳腺癌生存期预测研究中,基因表达数据从微观生物学层面反映肿瘤的生物特性,对癌症预后和治疗有重要的应用价值。临床数据包含了丰富的病理学特征,为乳腺癌患者的生存期预测提供理论依据。如何有效地融合基因表达数据和临床数据,更准确地预测乳腺癌生存期,是癌症生存期预测研究领域中亟需解决的问题。然而,现有的乳腺癌生存期预测模型,往往使用单一的特征选择方法对基因表达数据进行特征提取,再进行简单的特征拼接融合,这不仅容易丢失重要的基因信息,还忽略了组学数据间的关联。因此这类方法具有一定的局限性。本文在现有乳腺癌生存期预测研究的基础上,提出了基于深度学习和组学数据融合的乳腺癌生存期预测模型。首先,通过非负矩阵分解的改进算法提取出与乳腺癌生存期相关的特征基因;其次,构建基于Attention机制的深度神经网络模型(Attention-based Multi-Nmf Deep neural network using omic data,AMND)来融合基因表达数据和临床数据;最后,在上述研究的基础上,构建了一种基于多尺度特征融合的深度神经网络模型(Multi-scale Feature Fusion Deep neural networks,MFFD)来获取不同尺度上的组学特征。实验结果表明,本文的方法相较于现有的乳腺癌生存期预测方法,具有更好的预测效果。本文主要完成以下三个方面的工作:(1)本文在非负矩阵分解算法的基础上,提出了一种基于非负矩阵分解算法的Multi_NMF特征选择算法。Multi_NMF方法不仅可以提取基因表达数据的高阶特征,还避免了由矩阵分解所带来的稀疏性和丢失重要特征等问题。实验结果表明,改进后的Multi_NMF方法能够选择出更多与乳腺癌生存期相关的基因,有利于提升乳腺癌生存期预测准确率。(2)为了获取更多的组学数据特征,本文提出了一种基于组学数据和Attention机制的深度神经网络模型来融合患者的基因表达数据和临床数据。作为Attention机制在乳腺癌生存期预测模型上的初步尝试,AMND方法考虑了不同数据间的差异性,通过计算临床数据和基因表达数据的相关性,自适应地融合来自不同特征提取方法的特征基因,从而提升乳腺癌生存期预测准确率。实验结果表明,AMND方法能够准确的预测出乳腺癌患者的生存期。(3)针对数据集样本数量小而导致模型不能有效学习的问题,本文提出了基于多尺度特征融合的深度神经网络模型。首先,使用AMND方法融合组学数据。其次,设计不同的池化层以获取不同尺度的特征。最后,将不同尺度的特征拼接融合。MFFD方法融合了不同粒度的组学数据特征,包含了更多的生物特征信息。通过在测试集上的性能评估,实验结果表明,MFFD方法进一步提升了乳腺癌生存期预测性能。