基于图神经网络的宏基因组种群发现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ellen0807523254
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组学研究生物环境中所有物种的基因。目前,大量宏基因组对药物的反应、对人体健康的影响的规律仍未被掌握,亟待深化探究。此外,上万的微生物种类,对研究者的研究工作造成了障碍,而简单的根据门类分类进而分析的功能过少,无法挖掘微生物种群与种群间互相作用的深层机理。社区发现算法对大规模菌群物种进行模块划分得到若干个种群,可较好解决此种问题。近年来,随着高通量测序技术的大规模应用及数据量的飞速增长,进行模块划分以高效分析数据的需求随之增大。图神经网络种群发现算法,用图神经网络将数据划分为若干个内聚性高的模块的算法,由此越来越受到学者们的关注。为了高效学习大规模物种网络的非线性信息,本文构建了一个图神经网络种群发现算法模型,直接将菌群网络划分为若干个种群。过去的社区发现模型仅重构特征数据或仅重构网络数据,存在损失信息过多的问题。本文针对这一问题,设计了一个新的融合图卷积网络模块和图自编码器模块的图神经网络种群发现模型,进行输入特征数据及网络数据的同时重构并学习,减少了输入数据潜在信息的损失。此模型在六个不同菌群网络数据集上的模块度分数为0.521、0.739、0.785等,总体较其他最新方法有一定的提升。此外,经典图卷积网络模型进行前向传播时,对自身及所有邻居节点特征进行平均聚合存在缺陷,无法反映出自身节点与非自身节点的权重区别。针对此问题,本文使用了基于节点度的函数进行自权重拟合,并对多种拟合函数进行了充分的实验测试。节点特征前向传播时,使用对角线经过改进的权重矩阵。实验表明,综合使用新增自编码器模块、改进前向传播邻域聚合策略的图神经网络种群发现模型在不同宏基因组网络数据集上的种群发现任务中,获得的模块度分数为0.544、0.741、0.796等,较现有的其他社区发现模型的提升幅度为0.2%至3.1%,这表明了本文模型的高效性。
其他文献
随着物联网技术的发展和全景成像技术的成熟,全景相机在商场和会展中心迅速普及,涌现出越来越多依托全景图像的视觉应用需求,例如物联网设备可以通过分析视线信息来理解人的行为和意图。目前视线方向识别的研究主要是基于眼球或人脸特征的视线估计方法,面对的大多是受控场景下的视线估计。当面对全景相机所应用的复杂非受控环境时,传统方法视线方向识别精度低,因此本文将研究面向全景图像的多行人视线方向识别,先对多行人目标
学位
背景肺炎克雷伯菌(Klebsiella pneumoniae,KP)是在社区和医院感染中获得的最常见的革兰阴性菌,近年来,高毒力肺炎克雷伯菌(hypervirulent K.pneumoniae,hv KP)感染的发病率和死亡率持续增加。肺上皮细胞针对入侵的病原体有复杂的防御机制,其中Toll样受体(Toll like receptors TLRs)的表达可诱导激活肺上皮抗菌途径及气道炎症反应。有
学位
目的:研究右半结肠癌淋巴结转移的相关规律,探讨淋巴结转移与右半结肠癌分化程度、肿瘤位置、浸润深度等相关因素的关系,并进行相关统计学分析,从而指导临床中右半结肠癌淋巴结相关清扫范围。方法:收集2018年9月至2021年10月在安徽医科大学第二附属医院胃肠外科就诊并实施CME右半结肠癌D3根治术手术共52例患者的临床相关资料,如年龄、性别、肿瘤大体分型、肿瘤浸润深度(T分期)、术前血CEA(carin
学位
人机对话是人类与计算机之间进行交互的主要方式之一。其中,任务型对话系统通过与用户进行对话帮助用户完成预定任务,以其简单便捷的特点被广泛应用。自然语言理解是任务型对话系统的关键模块,其包含意图检测和语义槽填充两个任务,为后续模块提供语义理解支持。现有的对话语言理解方法大多需要收集大量领域特定的标注数据进行训练,才能达到较好的性能。然而随着对话任务场景的快速增加,往往在新领域难以获取到如此庞大的训练数
学位
目的:研究胃肠间质瘤患者血浆外泌体mi RNA和正常人血浆外泌体mi RNA表达差异谱,筛选出间质瘤患者血浆外泌体中特异mi RNA,为进一步研究间质瘤血浆外泌体mi RNA生物学特性提供理论基础。方法:选取2020年6月~2021年6月本院收治的5例间质瘤患者和5名体检的健康人作为研究对象,提取间质瘤患者和健康人血浆外泌体中的mi RNA,采用高通量RNA测序法检测外泌体中的mi RNA,与RN
学位
区块链是一个去中心化的分布式账本,具有去中心化、数据不可篡改、数据透明可追溯等特性,与传统的中心化数据库相比,其具有不可比拟的优势。研究者利用区块链的特性,将区块链应用到其它领域。在研究者利用区块链解决其它领域问题时,忽视了区块链存在的问题。区块链本身查询能力不足,目前仅仅支持查询少数键值的查询,难以支撑区块链作为数据库的高效性。同时,由于区块链上数据是透明的,每个节点都可以访问区块链上的数据,因
学位
行人检测旨在从图片或者视频中自动定位行人。在研究领域,行人检测是行人分析任务如行人跟踪、行人重识别等的前置环节。在应用领域,行人检测是自动驾驶、智能安防等系统的重要组成部分。相比人类发达的视觉能力,行人检测算法的错误率还需要进一步降低。行人检测存在两个问题,一是夜间场景下行人置信度低而背景置信度高。二是大规模场景下行人的外观差异性巨大。现有的行人检测算法简单地一对一学习正负样本,缺乏对前景背景的深
学位
近年来,随着疫情形势的愈发严峻和各类疾病的爆发,对于药物的需求愈发突出和显著。目前,新型药物的研制过程成本高、耗时长,所以药物再利用逐渐成为一种研发新型药物分子的可替代方案。该方案的关键在于如何在海量的药物-靶标相互作用关系中快速筛选出具有实际意义的关系对。因此,本文聚焦药物与靶标相互作用(Drug-Target Interaction,DTI)预测这一问题,具有重要的理论研究意义和实际应用价值。
学位
目的:肝内胆管结石是一种常见的胆道系统良性疾病。由于其复杂和易复发性,如何提高该疾病的临床疗效,改善患者的远期预后一直是肝胆外科医师面对的难题。尽管随着内镜器械及影像技术的发展,内窥镜也成为治疗胆道系统疾病的一种方式。但肝切除术依靠其切除病肝,降低复发的优势,仍在肝内胆管结石的治疗中占据不可替代的地位。近年来,随着外科医生腹腔镜手术经验的不断积累,腹腔镜下肝切除的范围不再局限于单个肝叶或肝段。本研
学位
目的:趋化因子配体11(Chemokine ligand 11,CCL11)可以将嗜酸性细胞募集到肿瘤微环境(Tumor microenvironment,TME)中。此前的研究表明,嗜酸性粒细胞在癌症中发挥免疫调节作用。因此,本文旨在研究CCL11在乳腺癌中的表达和对免疫浸润的影响,及其能否作为预后标志物。方法:首先下载TCGA数据库中的m RNA测序数据分析CCL11在各种癌症类型中的表达情况
学位