基于图神经网络的文献知识发现研究——以潜在新冠药物发现为例

来源 :中国科学院大学(中国科学院文献情报中心) | 被引量 : 0次 | 上传用户:zzg770707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学研究范式正在经历向数据密集型科研的转变。新的研究范式为科学发展带来新的机遇,同时也对数据资源的有效利用提出了挑战。科技文献数据是科技活动的主要知识来源和知识的主要载体,是科学研究中的重要资源。随着科学研究越发向深入发展,科技文献总量迅速增加,文献研究的内容也在不断细化。前者意味着人类已不可能完全凭借阅读来利用科技文献资源,后者则使不同领域的科学研究之间的潜在关联很难直接被联想和利用,造成了科研上的“信息孤岛”。针对科技文献有效利用的问题,基于文献的知识发现(Literature Based Discovery,LBD)研究方法应运而生。LBD是一种从文献中发现隐含知识的情报学方法。它将文献集转换成概念关系网络,以挖掘概念之间的隐含关联,为提升文献资源利用效率提供了有效途径。本研究将基于图神经网络的链路预测技术引入LBD方法体系,构建了文献知识发现模型,并在生物医药领域进行实证研究。相关主要的工作内容及创新成果如下:(1)本研究将近年新出现的图神经网络算法与LBD方法相结合,构建了一个使用图神经网络算法的LBD模型,通过该模型实现了LBD研究与深度学习的结合,整合深度学习领域中成熟的经验、算法、计算资源,为LBD在更大规模文献数据集中的知识发现扫清障碍,丰富了现有知识发现方面的情报研究方法及工具。(2)本研究使用基于图神经网络的文献知识发现模型在新冠肺炎潜在药物发现领域进行了实证研究,展示了50种对新冠肺炎具有潜在治疗作用的药物,其中有72%的药物被已有研究关注和报道。相关结果证明了本研究所提出的新方法的可行性及有效性,以情报学的思路为新冠药物研发提供了有情报价值的信息,在新冠肺炎大流行的背景下具有重要现实意义。未来,相关研究需要进一步完善数据和算法设计两个层面的工作。在数据层面,可以开展非结构化的文本数据研究,进一步拓展本研究模型在不同结构数据中的应用;在算法设计层面,可对图嵌入层和解码器层进行修改,例如将BERT、Alpha Fold等深度学习领域的成熟模型用于生成节点特征,使用Dist Mult、Rotat E算法实现边特征到边类别的映射,使模型能够整合更多的信息实现更准确的预测。
其他文献
常规配电网优化配置方法的经济性较差,基于此,本文提出考虑源网荷协同的配电网分布式光伏储能多目标优化配置方法。建模配电网各分布式储能设备的出力,并结合源网荷协同规划建立储能优化配置模型,设计约束条件,引入混合粒子群算法求解模型,得到最佳优化配置方案。测试结果表明,设计的储能优化配置方法运行总成本更低,可提高配网运行经济性。
期刊
氯丁橡胶塑身衣是一种可外穿的运动型塑身衣,由于其面料特殊的三层复合结构,可内外复合不同面料,得到不同的服用性能,内层复合不透气面料可辅助运动排汗,提高瘦身塑形效果,因此很受运动健身爱好者的欢迎。与普通内穿塑身衣不同,氯丁橡胶塑身衣有其自身的特点,文章针对目前市场上的该类型产品,从面料、款式、结构三个方面进行详细分析,并探究其改进和发展方向,为氯丁橡胶塑身衣产品的生产研发提供参考。
期刊
中医药是中华文明瑰宝,在全民健康中发挥着重要作用,十八大后,习近平总书记高度重视中医药发展与应用,强调要“坚持中西医并重,传承发展中医药事业”。在中医领域建设知识图谱,从海量非结构化的中医科技文献中抽取结构化的“临床研究”知识体,补充中医临床研究知识库,支撑中医领域语义搜索、智能问答、决策支持等知识服务,有助于挖掘与利用中医药知识。构建知识图谱需要结构化的信息作为数据基础,从非结构化的科技文献文本
学位
中国正从“制造大国”向“智造强国”战略转型,以科技创新为核心的创新驱动发展战略已上升为国家战略,国家和企业对创新的需求不断提高,主要体现在产品快速迭代的需求、技术交叉加剧的需求和创新知识集中汇聚的需求。在当前的时代背景下,创新已经不仅仅是依靠个人灵感而产生的想法,而更需要科学的方法和依据给予突破。TRIZ创新方法通过对专利大数据的挖掘分析,形成了一套指导人们进行发明创新的系统化的方法学体系,可以准
学位
科技期刊传承人类文明,荟萃科学发现,引领科技发展,直接体现国家科技竞争力和文化软实力。我国科技期刊作为学术交流主渠道、科研成果首发竞争主战场,在科技创新、国家创新建设中发挥着重要作用。目前,在利好发展政策推进、科研人员关注增加和技术变革支持等方面对我国科技期刊发展提出要求的同时,科技期刊与科学研究发展严重不匹配的问题仍然突出,这同样要求我国科技期刊要高质量发展以提高整体竞争力。因此探究影响我国科技
学位
以“一带一路”倡议、京津冀协同发展、长江经济带发展、粤港澳大湾区建设、长三角一体化发展、黄河流域生态保护和高质量发展为代表的重大国家战略正深刻影响着我国社会全面发展的进程,各地区、各行业机构都将在战略政策的推动下展开新一轮发展,图书馆这一典型的文化机构也不例外。顺应图书馆机构转型的发展趋势,把握战略宏观环境为图书馆带来的历史性机遇,积极响应战略号召,结合馆际区位特点和机构功能优势,围绕重大国家战略
学位
新时代的人力资源服务业有着新的发展特点和机遇,在粤港澳大湾区、深圳建设中国特色社会主义先行示范区“双区驱动”的背景下,中山市人力资源产业发展面临重大的发展机遇与挑战。近年来,中山市人力资源产业发展有了较大进展,但与粤港澳大湾区周边城市相比,人力资源发展在产业定位与政策扶持、发展规模与发展潜力、市场化与集聚化发展程度方面存在较大差距。为了破解中山市人力资源产业发展难题,政府应强化人力资本发展理念、提
期刊
新兴技术识别一直是科技创新管理、科技政策制定和技术竞争情报研究领域关注的问题。就科技创新管理而言,新兴技术识别可以作为先导研究提升科研基金资助的效率;就科技政策制定而言,新兴技术识别能够帮助科技政策制定者根据当前产业与技术的发展态势随时调整政策布局;就技术竞争情报而言,新兴技术布局有助于企业管理层及早确定研发重点、明确投资方向以及降低投资风险,帮助国家战略决策层做好长期规划,抢占先机,保持技术竞争
学位
政策扩散是政策过程理论的重要研究领域,现有研究包括两个方面:一是政策扩散特征研究,可分为时空演进特征(如规模、方向或层级结构等)和内容演化特征(扩散程度或主题分布等);二是政策扩散影响因素和机制研究,主要关注影响一项政策采纳的因素和动力机制,多采用回归模型或质性分析。计算社会学的发展为政策扩散研究提供了新的视角,通过数据挖掘技术对政策扩散的过程进行分析,可客观揭示政策扩散规律,进而有助于分析政策扩
学位
社交媒体已经成为学术交流的重要渠道之一,成为学术界交流学术以及与广泛社会公众科学对话的常见场所。几乎每个学科领域都在社交媒体平台上发布了大量可共享的信息资源,包括研究成果、课题信息、同行研究动态等。这种多来源、多维度、多类型的学术信息有较大的学术交流和学术研究价值。社交媒体学术信息结构复杂,与情境密切相关且处于动态交互、不断增长的态势。其易衰减、易消逝等脆弱性特点阻碍了用户对该类信息资源的长期可持
学位