基于异质图神经网络的多组学数据融合算法在肿瘤分类上的应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lidcc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高通量测序技术的迅速发展和成本的降低,越来越多的包含高质量组学数据的公共数据库被研发出来。因此,生物信息学领域的研究人员对组学数据的研究也从原来的仅仅使用单一组学数据发展到同时使用多种组学数据。同时,癌症的分级以及分型作为一种复杂性状,都具有不同的临床、病理和分子特征,并且具有预后和治疗意义。因此,关于癌症分级分型的研究对于精准医学和癌症的预后预测具有重要意义。虽然,很多研究人员已经开始研究癌症分化度以及亚型的分类预测,但是很多相关方法是基于传统机器学习的,并且大多都是基于单组学数据的。而基于多组学数据整合的方法不多,并且结果还有待提升。因此,我们有必要研究一种基于多组学数据整合的深度学习算法来实现对癌症分化度和亚型的分类预测。在本文中,我们提出了一种基于异质图神经网络的多组学数据融合算法(MOHGNN),用于预测癌症分化度以及亚型的分类。模型的框架主要是由用于学习不同组学数据特征的图卷积网络(GCN)模块和用于多组学数据集成的图注意力网络(GAT)模块组成。我们采用了三种不同的组学数据,对于每一种组学数据,首先,分别使用卡方检验和最小冗余最大相关(m RMR)等算法对不同组学数据进行特征选择。然后,根据不同的组学特征分别构建加权患者相似性网络并且使用组学特征和相应的相似性网络对GCN进行训练。最后,使用GAT集成不同类型的组学特征并且进行最终的癌症分类预测。MOHGNN是一个端到端的模型,所有的网络模块都是一起训练的。为了验证MOHGNN模型的癌症分类预测性能,首先,我们采用5倍交叉验证的方法,分别将我们的模型与传统的机器学习模型以及目前流行的基于多组学数据整合的方法进行了实验对比。不管是在癌症分化度以及亚型的二分类结果预测上,还是在癌症分化度以及亚型的多分类结果预测上,我们模型所取得的实验结果都是要优于传统的机器学习模型以及基于多组学数据整合的最新方法。在乳腺癌亚型的任意二分类以及多分类预测上,本文模型分别取得了平均91.8%的ACC和73.5%的ACC。然后,为了选择模型中更有利于癌症分化度以及亚型分类的模块,我们又采用了5倍交叉验证来测试不同模块在测试集上的预测性能。最后,为了进一步测试模型的分类性能,我们在仅使用单种组学数据、同时使用两种组学数据以及同时使用三种组学数据的基础上对癌症分化度及其亚型进行对比实验,MOHGNN模型基于多种组学数据的癌症分类预测性能是最好的。
其他文献
<正>在2016年教育部提出构建新的高考评价体系后,各地高考数学开始出现结构不良试题.数学的结构不良试题特征包括条件部分缺失或冗余、问题不定、解决方法不唯一等.相比于之前的良构问题,结构不良试题体现了高考从能力立意到素养导向的转变.因为结构不良试题的初始状态、目标状态、中间状态中至少有一个是不确定的,所以学生需要全面地掌握题目涉及的知识模块,才能实现在解决问题的过程中,从多个角度分析并提出解决问题
期刊
<正>充电运营是服务于电动汽车能源补给及延伸的行业。根据预测,到2030年我国公共充电桩将不少于800万个,行业发展前景巨大。但该行业具有投资大,回报周期长、现有盈利模式不明朗等特点,在发展过程中,融资问题是充电运营企业发展的关键问题之一。本文通过分析,提出充电运营企业可利用产业链融合、产业互补等策略,同时借鉴其它新兴行业的融资方式,解决发展过程中融资问题,实现规模化发展。
期刊
<正>2021年高考化学中离子方程式的书写能充分体现高考命题改革中知识立意向能力立意的转变,所占分值与往年相比稳中有升.本文例谈2021年高考化学试题中离子方程式的书写考查类型及解题指导.1由反应物推测生成物的离子方程式的书写例1 (1)(2021年全国甲卷,节选)以NaIO3为原料制备I2的方法是:先向NaIO3溶液中加入计量的NaHSO3,生成碘化物;再向混合溶液中加入NaIO3溶液,反应得到
期刊
介绍戏剧教学法的概念、起源与发展、优势及意义、实施细则、应用效果,以期提高我国护理人员对戏剧教学法的认知,并为戏剧教学法在护理教育中进一步开展提供参考。
轨道交通站点内客流实时状况是进行客流管控与应急管理的基础,为实时监测轨道交通网络客流变化,对大客流进行预警,构建了一种基于历史数据的轨道交通站内客流预测模型。首先利用历史轨道交通每个站点的进出站数据,挖掘不同站点分时段客流OD分布估计及到达时间估计,再基于实时进站数据,预测乘客的终点站选择与行程时间,反推演乘客时空轨迹,最终根据乘客时空轨迹分析各个站点的人群动态变化,从而实现轨道交通站内客流预测。
<正>一、引言从新课标的命题框架中可以看出,无论是真实情境还是实际问题,又或是化学知识均指向核心素养,考查学生在真实情境中能否运用所学知识解决不同复杂程度的实际问题,能够展现出学科素养的水平。2021年是河北省实行“3+1+2”选科模式新高考的第一年,相比于之前全国Ⅰ卷的化学试题,新高考在题目数量上由原来的13道增加为18道,新高考化学选择题数量增加并分为单项选择题(9道)与不定项选择题(4道),
期刊
[目的]建立了水稻稻杆、稻壳及稻米中丙炔草酮、西草净和丁草胺3种除草剂的残留检测方法。[方法]样品以乙腈作为提取剂,经N-丙基乙二胺(PSA)和石墨化炭黑(GCB)净化,外标法定量,丙炔草酮采用气相色谱仪进行检测,西草净和丁草胺采用气相色谱-质谱联用进行检测。[结果]水稻稻杆、稻壳及稻米中3种农药在0.01~1.0 mg/L范围内呈良好线性关系(R2=0.99)。在0.01~0.5 mg/kg加标
目的:基于血清药物化学与网络药理学探究广藿香干预病毒性肺炎的药效物质基础和作用机制。方法:利用超高效液相色谱-四极杆-静电场轨道阱高分辨质谱法(UPLC-Q-Exactive Orbitrap MS)对广藿香水煎液、大鼠空白血清及含药血清样本成分进行分析,应用Compound Discoverer 3.1化合物预测软件,结合二级谱图及已有文献,鉴定广藿香的入血成分。利用SwissTargetPre