论文部分内容阅读
在自然界中,微生物无处不在。这些微生物尤其是细菌寄生于人体,通过相互作用调节机体平衡,影响人体的新陈代谢。近几年来,有关微生物的研究数据,随着实验条件与技术水平的迅猛发展而快速扩增,这些数据的积累催生出基因组序列分析、生物网络构建、生物医学文本挖掘等计算方法,用以探究海量的生物医学数据中的潜在知识。本文主要针对细菌-疾病关联提取的问题,通过实体识别、关系抽取、知识库构建、关联预测等方法,从生物医学文本挖掘的角度开展微生物与人体健康的研究。本文的主要工作研究如下:(1)提出了基于维基百科的细菌与疾病关联挖掘方法。已有研究通过文献检索和提取构建了细菌与疾病关联的数据库,但是没有用到全球最大的公共知识平台维基百科。维基百科里面蕴含了丰富的细菌与疾病实体之间的关联,从而可能成为文献挖掘的较好补充。针对该问题,本文利用文本挖掘工具Kindred,从维基百科正文中获取了细菌与疾病的交互作用。这项工作将已有的细菌与疾病关联数据库扩充了约16%,证明了通过维基百科的文本挖掘方法是文献挖掘方法的有力补充。(2)开发了一个基于Django的细菌与疾病交互可视化平台。现有的细菌与疾病相关数据库,仅仅考虑了简单的关联信息,功能有限。本文整合了细菌栖息地、宿主等多源属性信息,通过对细菌的属性与疾病关联的相关性分析,可以验证细菌属性与疾病之间的相关关系。该系统平台还实现了关联数据查询、可视化等操作,提供了更加直观便捷的可视化分析工具,也为更深入的关联预测分析提供了可靠依据。(3)提出了一个基于细菌与疾病知识库的关联预测方法。从文本角度的关联预测分析在通用领域得到了广泛应用,而在生物医学领域尤其是微生物关联的应用尚且较少。本文提出了基于双线性模型、神经网络及翻译模型预测细菌与疾病关联的方法。实验结果表明,翻译表示学习的预测效果优于其他方法,能够快速有效地预测未知的关联,并且能够实现知识库补全的功能。本文提出的面向细菌与疾病关联知识库研究和可视化平台实现,能够实现细菌与疾病知识挖掘和关系预测的任务,提供了一个直观便捷的可视化分析工具。