论文部分内容阅读
随着互联网和人工智能技术的飞速发展,自动问答系统成为一种新的人机交互方式。医疗健康问题是人们生活中最关心的问题之一,网络上的各类医疗信息也越来越丰富。目前,网上各类医疗知识存在主观性较强,缺乏针对性,而且由于医疗领域知识专业且复杂,现有的医疗科普网站难以根据用户的各种问题给出针对性强的回答。知识图谱以接近人类认知思维的形式对数据进行组织和理解,为互联网上海量、异构、动态的大数据管理和使用提供了一种优秀的解决方案。论文设计并开发了基于医疗知识图谱的问答系统,可以帮助用户在海量医疗数据中筛选出问题的精准答案并返回给用户。本文针对问答系统的研究内容主要包含以下方面:(1)研究如何构建一个高质量的医学领域知识图谱,主要分为数据收集、数据清洗和知识存储。首先,利用网络爬虫在医疗网站上抽取数据,并通过设置停用词库过滤数据和词汇切分的方式对数据进行清洗,然后对得到的数据进行医疗实体、实体关系和实体属性的定义,再将它们写入Neo4j图数据库;(2)研究如何实现问答系统的问答任务。首先针对缺乏问答训练语料和标注数据的问题进行了问答语料生成,并对原始语料进行自动标注,得到训练语料,再对用户问句进行语义解析,采用基于词向量的Bi-LSTM-CRF的序列标注模型对问句进行医疗实体识别,并采用textCNN模型对问句进行意图分析,建立问句到知识图谱的映射关系,实现在知识图谱中检索答案;(3)搭建医疗自助问诊服务平台。利用web应用程序框架Flask对医疗问答服务进行包装,将服务以浏览器访问的方式开放出来,实现人机交互,平台最终可实现辅助问诊、医学专业知识检索和可视化的功能。本文旨在通过上述工作内容帮助完善中文领域临床知识图谱的构建工作,同时利用机器学习的方法提高医疗知识图谱智能问答系统对用户输入自然语言的语义理解能力,并在最终构建一个能够切实解决用户问诊需求的自助医疗问答平台。