基于基因表达数据深度学习的癌症预后预测

来源 :四川大学 | 被引量 : 0次 | 上传用户:blnxy541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
预后(Prognosis)指对疾病可能的进程及结果的估计。癌症基因组图谱(The Cancer Genome Atlas,TCGA)等数据库的出现为研究人员提供大量丰富且权威的数据,推动了基于基因组学数据的癌症预后预测研究。当前,癌症预后预测的研究成果主要集中于BRCA、NSCLC、GBM等样本数较多的疾病类型;预后预测模型更多从生物学角度对基因特征进行分析,缺乏从计算角度分析基因特征进而发现潜在生物标记物的研究。同时,组学数据分析通常使用一维卷积,特征表示存在较大局限。针对上述问题,本文主要研究基于TCGA数据的不同癌症类型患者的预后预测问题,以期揭示癌症机理发现潜在生物标记物,并提高预后预测模型性能,本文的主要贡献包括:(1)提出融合小波变换的预后预测卷积神经网络模型SWT-CNN,一维RNA-seq基因表达数据作为输入。实验表明,SWT-CNN模型预测结果总体优于人工选取特征的SVM模型,但模型具有一定的数据依赖性。在本文中,以该模型预后预测结果作为后续研究基准值。(2)提出特征重要性评估算法与结合Cox回归的Risk-score预后预测模型,提升模型的可解释性。通过抽取SWT-CNN模型池化层之后计算出的特征,并将其与输入特征之间的关系近似看作线性映射,根据最小二乘法原理计算出特征重要性得分,并结合Cox回归分析提出通过计算样本风险值的预后预测模型Risk-score。实验表明,较SWT-CNN模型,Risk-score模型预后预测的AUC值提升3%-13%。(3)提出基于XGBoost特征筛选后的基因表达图像预后预测模型Deep GIX。将一维RNA-seq基因表达数据在经过XGBoost特征筛选后转换为二维基因表达图像用于卷积神经网络输入。Deep GIX模型在LGG数据集上取得最优预测结果(AUC=0.91),且使用SWT-CNN模型结果最差的LUSC和OV数据集的预测结果分别提升到0.64和0.71,几乎所有数据集AUC值较SWT-CNN模型预测结果提高5%以上。此外,除LGG外的所有数据集模型预测AUC值在0.64-0.72之间,解决了不同癌症类型数据集模型预测结果差异较大的问题。在此基础上建立融合mi RNA-seq数据的多模态模型,实验表明,mi RNA-seq数据并不适用于所有癌症类型的三年生存时间预后预测。
其他文献
随着互联网的蓬勃发展,越来越多网民在社交平台上发表自己的言论,这些言论中通常包含大量的情绪信息,分析这些文本中蕴含的情绪可以为舆情分析等许多任务提供支持,拥有很高的应用价值。由于社交平台上用户发布的每一段文本通常包含多种情绪,且这些情绪间互相存在关联,捕捉这样的关联可以为准确识别文本中的情绪带来帮助,所以文本情绪分析应使用能够建模情绪关联性的多标签分类方法。目前以序列到序列模型为基础的深度学习方法
使计算机具有文本生成能力,是实现人工智能的重要目标之一,也是当前自然语言处理领域的研究热点。近年来,深度学习成为文本生成的主流方法,使得生成文本更加流畅,极大地提高了生成文本的质量。然而,主流的深度学习文本生成方法以序列到序列模型为基础,它们针对相同的源文本总是产生相同的目标文本,这对于要求提供多样性回复的应用场景是不适合的,例如聊天机器人。因此,在满足高质量的前提下提高生成文本的多样性,成为文本
在软件开发流程的前端开发环节中,前端开发人员需要根据UI(User Interface,用户界面)设计图编写对应的界面代码。为了1:1还原UI设计图中UI组件的位置与样式,开发者通常采用一种不断试错的方式进行界面代码编写,这是一项耗时且重复的工作。实现从UI设计图到界面代码的自动转化,可以避免这种重复的试错过程,提高开发效率,有利于软件的快速迭代。近年来,有不少工作利用深度学习技术,致力于将UI设
随着深度学习的发展,中国古典诗歌的自动生成研究取得了很大的进展。近年来,研究人员在关注如何提高自动生成诗歌质量的同时,提出了根据图像信息生成诗歌这一跨模态任务。目前,针对该任务的研究方法仍然存在诗句主题偏移和语义不一致的问题;同时一些重要的图像信息不能准确的被表达在生成的诗歌中;而且在训练过程中,图像和诗歌的配对数据集存在质量差和难以构建的问题。本文针对这些问题,提出了一种基于深度学习的图像生成诗
鞍区的周围毗邻着Willis环、视神经等重要的神经血管结构,是病变的好发部位。颅咽管瘤(Craniopharyngioma,CR)、鞍结节脑膜瘤(Tuberculum Sellar Meningioma,TSM)、Rathke’s囊肿(Rathke’s Cleft Cysts,RCCs)和垂体瘤(Pituitary Adenomas,PAs)是鞍区最为常见的病变。磁共振成像(Magnetic Re
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,值函数估计的研究在深度强化学习领域具有十分重要的意义。但在深度强化学习算法值函数估计的过程中存在一些问题:(1)在更新值函数的过程中,算法普遍选择当前状态下最大的动作状态值(Q值)估计来计算目标Q值,导致算法过高估计Q值,对性能造成不利影响。(2)基于值函数的深度强化学习算法在
自然语言处理中的信息抽取任务是指抽取自然语言文本中的实体、实体关系和事件等结构化信息,是一种将非结构化或者半结构化的文本数据,转化为结构化信息的技术。随着互联网的飞速发展,网络上存在越来越多的以文本形式存在的数据,如何快速将大量无结构的文本数据转化为有结构的信息,为下游应用提供数据支撑,是信息抽取需要解决的问题。信息抽取的具体任务包括命名实体识别、实体关系抽取和事件抽取。其中,命名实体识别与实体关
交通标志检测在辅助驾驶以及无人驾驶领域中都有重要地位。在这一领域,技术方法百花齐放,都是对获得的标志图像进行检测。其中使用深度学习检测算法进行交通标志检测已经成为当下交通标志检测的重点研究领域。在道路交通中,由于复杂的道路交通情况以及驾驶员可能出现的身体不适或者精神不集中等情况,单靠驾驶员用肉眼识别交通标志常常会出现各种各样的问题,所以通过其他方式进行交通标志检测的需要逐渐增大,同时在智能交通和自
RNA结合蛋白(RBP,RNA Binding Protein)是普遍存在的能与RNA结合的蛋白质的总称,RBP通过与RNA特异性结合,直接或间接地调控RNA的表达。在生物体内大部分的RNA发挥作用都要与蛋白质相结合,RBP与特异RNA结合的过程又称为RNA-蛋白质相互作用。RNA-蛋白质相互作用的预测是目前生物医学工程领域的重要研究课题,如何利用计算方法提高其预测精度成为当今国内外研究的热点。现
肾脏疾病在现代社会中已成为全球发生率第四高的重要疾病,在我国更有超过11%的人口属于不同程度的肾脏病患者,全球每年超过百万肾脏患者发展成为肾衰竭、肾肿瘤等恶性病变。肾脏病变的早期筛查对于及时诊断和控制病情发展有着重要作用,而肾脏疾病的临床诊断十分依赖于彩超和CT等医学影像检查方式以及医生的专业水平。但在我国,医生以及医疗设备等医疗资源随地域分布严重不均,同时医生需要分析和处理大量的影像数据,人工阅