基于文本挖掘的细菌-疾病关联知识库构建与预测

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:haiminglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然界中,微生物无处不在。这些微生物尤其是细菌寄生于人体,通过相互作用调节机体平衡,影响人体的新陈代谢。近几年来,有关微生物的研究数据,随着实验条件与技术水平的迅猛发展而快速扩增,这些数据的积累催生出基因组序列分析、生物网络构建、生物医学文本挖掘等计算方法,用以探究海量的生物医学数据中的潜在知识。本文主要针对细菌-疾病关联提取的问题,通过实体识别、关系抽取、知识库构建、关联预测等方法,从生物医学文本挖掘的角度开展微生物与人体健康的研究。本文的主要工作研究如下:(1)提出了基于维基百科的细菌与疾病关联挖掘方法。已有研究通过文献检索和提取构建了细菌与疾病关联的数据库,但是没有用到全球最大的公共知识平台维基百科。维基百科里面蕴含了丰富的细菌与疾病实体之间的关联,从而可能成为文献挖掘的较好补充。针对该问题,本文利用文本挖掘工具Kindred,从维基百科正文中获取了细菌与疾病的交互作用。这项工作将已有的细菌与疾病关联数据库扩充了约16%,证明了通过维基百科的文本挖掘方法是文献挖掘方法的有力补充。(2)开发了一个基于Django的细菌与疾病交互可视化平台。现有的细菌与疾病相关数据库,仅仅考虑了简单的关联信息,功能有限。本文整合了细菌栖息地、宿主等多源属性信息,通过对细菌的属性与疾病关联的相关性分析,可以验证细菌属性与疾病之间的相关关系。该系统平台还实现了关联数据查询、可视化等操作,提供了更加直观便捷的可视化分析工具,也为更深入的关联预测分析提供了可靠依据。(3)提出了一个基于细菌与疾病知识库的关联预测方法。从文本角度的关联预测分析在通用领域得到了广泛应用,而在生物医学领域尤其是微生物关联的应用尚且较少。本文提出了基于双线性模型、神经网络及翻译模型预测细菌与疾病关联的方法。实验结果表明,翻译表示学习的预测效果优于其他方法,能够快速有效地预测未知的关联,并且能够实现知识库补全的功能。本文提出的面向细菌与疾病关联知识库研究和可视化平台实现,能够实现细菌与疾病知识挖掘和关系预测的任务,提供了一个直观便捷的可视化分析工具。
其他文献
《基础教育信息技术课程标准(2012版)》中对课堂教学内容与实际应用过程的联系、信息技术的发展与中小学信息技术课堂教学之间的联系、课堂教学与生活实际的联系做出明确强调
社交物联网范例的提出为下一代物联网的发展揭开了新的道路,但同时也带来了新的安全隐患,网内节点之间充分开放的合作关系给恶意对象发动攻击提供了更好的契机,其内含的社会
基于英语课程标准理念,义务教育阶段的英语课程应面向全体学生,关注语言学习者的不同特点和个体差异,为学生发展综合语言运用能力打好基础。笔者所在学校是一所城乡结合部的
二战之后,非政府组织作为政府和市场之外的组织形式开始在世界范围内普遍出现,并逐渐参与到解决由于政府和市场失灵带来的公共产品的供应问题中。如今,随着经济全球化的不断
卷积码具有码字长度较短、编码及译码结构简单,且具有较好的纠检错性能等优点,因此至今仍广泛应用在多种通信系统以及各国军事通信系统中。本文在认知电子战的背景之下,分析
烯丙基胺在有机合成方面是一类重要的基本骨架,广泛存在于在天然药物,药物及材料中。具有重要的生物活性的烯丙基胺类化合物在医药、生物等方面的应用十分广泛。而且烯丙基胺
以往研究显示,在影响植物生长发育的众多重要环境因子中,昼夜长度的周期性变化是最重要的因素之一。尽管一些昼夜周期响应基因的功能已经被明确,但光周期调控植物生长发育的
2008年世界智力运动会在北京的成功举行,智力运动项目随之在中国蓬勃发展。在智力运动项目中,非完备信息博弈占了很大的比重。广大人民群众对非完备信息博弈智力项目的学习热
NC-OFDM通信系统由于在具备传统OFDM系统抗多径、频谱利用率高的优点的同时,还可以通过感知周围环境的变化,选择不同的子载波发射数据,进一步提高了系统传输的可靠性,因此在
本文研究了两类生态模型概周期解或周期解的存在性,主要利用Mawhin重合度延拓定理来推导多重正概周期解或周期解存在的充分条件.本文研究内容如下:第一章概述了文章所研究问