基于知识图谱的医疗导诊问答系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:w_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在医疗问答领域,用户需要的答案往往来源于多个结构互异的数据源,且其答案内容也相差甚远。知识图谱能把多源且复杂的数据以更为直观且人性化的方式表现出来。而现有医疗导诊问答系统有如下两个问题:第一,知识图谱缺乏医疗数据或医疗数据信息不全;第二,问答系统算法多采用传统深度学习模型,导致问答系统“智能度”不高。针对现有知识图谱和问答系统的不足,开展了以下研究工作:第一,为了构建数据较全的医疗知识图谱,首先针对不同医疗网站结构,设计定制提取器爬取数据,清洗并过滤掉非句子成分。对于清洗后的数据,选用在医疗问答领域使用较少的基于预训练模型(Bidirectional Encoder Representation from Transformers,BERT)的双向循环网络(Bi-LSTM),并结合条件随机场(Conditional Random Field,CRF)来进行知识抽取。然后对抽取结果采用叠词相似度、编辑距离、余弦相似度等同义词算法取平均值的方式进行知识融合。最后利用Neo4j数据库进行数据存储。第二,聚焦于问答系统的“智能度”,精心设计并实现问答系统的各个模块,重点包括特征提取、意图识别等。在特征提取模块中结合医疗语料数据集和深度学习各个模型的特点,通过融合BERT-BiLSTM-CRF模型,对比分析其与BERT、BiLSTM和CRF之间多个融合后的模型的准确率。针对问答系统用户输入语句长度较短的特点,设计并实现以TEXTCNN结合规则的意图识别模块,即选择适合短文本的分类模型TEXTCNN对文本意图初判断,然后对初步结果集用关键词响应进一步筛选。第三,基于微信小程序和Flask平台,搭建一个具有自我诊断病情、记录病史及推送医疗消息等功能的中文医疗问答服务平台。实验中的结果表明,BERT-BiLSTM-CRF融合模型在命名实体识别中比传统的BiLSTM-CRF性能更好,F1值为91%,提升了3%。在短文本意图识别中,TEXTCNN和BERT的F1值均为94%。但单句预测速度TEXTCNN比BERT更快,TEXTCNN单句预测用时2.53ms,BERT单句预测用时7.45ms。问答系统各个模块算法耗时均在10ms左右,服务平台响应时间在0.35s左右,满足一般应用生产要求。
其他文献
双臂机器人协同作业具有工作空间大、负载能力强、适用场景多等优势,但在面临复杂多变环境时仍然存在挑战。人机协作综合了人类解决问题的灵活性和对环境变化的适应性以及机器人工作的耐久性和动作准确性等优点,适用于布局紧凑、精准度高的柔性化生产线,符合生产小型化、精细化的需求。然而,当前双臂协调控制技术仍不完善,人与双臂机器人的高效协作更是一大挑战。在此过程中,如何实现双臂根据环境变化进行实时运动轨迹补偿是最
矢量信号源由模拟信号源发展而来,是目前无线通信系统测试中的常用设备。随着无线通信技术的发展,尤其是近年来5G技术的发展,通信系统正朝着高速、多模式的方向发展,这大大提高了无线通信系统测试的难度,因此对矢量信号源的性能也提出了更高的要求。直接数字频率合成技术(Direct Digital Synthesizer,DDS),软件无线电(Software Defined Radio,SDR)以及现场可编
扭秤是实验室测量弱力的经典工具,通过对扭秤定向偏转角度的精确测量,可以计算出扭秤所受的力矩的大小。自准直仪作为一种测量微小角度变化的常用的精密计量测试仪器,其优点是利用光学自准直原理,可以实现对微小角度变化的非接触测量。鉴于精密扭秤实验对更高精度、更高分辨率的角度测量系统的需求,本课题在充分调研国内外高精度光电自准直仪研究方案和应用技术的基础上,设计并成功搭建了一台可以实现二维角度测量的高精度、高
超快超强激光近年来取得了进一步发展,体现出峰值功率更高、脉冲宽度更窄的趋势,为人类研究光与物质之间的相互作用、探索极端条件下的新物理现象与规律,提供了强有力的技术支撑,这也使得对激光脉冲的诊断提出了更高要求:时空分辨和单发测量。本文针对超短脉冲诊断完成了两种重构算法的研究工作:(1)根据色散扫描(Dispersion scan,D-scan)技术原理实现了D-scan重构迭代算法,(2)结合频域干
TLJ1100t架桥机适用于中交路桥建设集团宁波象山湾疏港高速多种混凝土预制箱梁左右双幅的架设施工。能与TLC1100t运梁车配合完成箱梁的架设作业。同时能够适应首、末孔施工,以及半预制半现浇工况,半路基半预制工况,桥面爬行工况等多种复杂工况。通过运梁车驮运,可以实现快速的桥间转移。TLJ1100t架桥机采用双主梁五支腿结构,跨两跨架梁,运梁车尾部喂梁,前、后起重天车取梁,同步吊梁前行,空中横移箱
积分方程在数学、力学、物理学、机械工程、电子科学与工程、化学等多个领域发挥着重要的作用。带有延迟项的Volterra积分方程特别适合于描述生物学中种族繁衍、金融学中股票震荡等问题,受到越来越多学者的关注。但延迟项的存在为该类方程的算法理论研究和数值模拟带来了特殊的困难。本文对带有延迟项的第二类Volterra积分方程研究基于重心有理插值的数值方法,包括算法构造,收敛性和稳定性分析。第一章对于Vol
学位
基于人民网和新浪微博平台,以中美贸易战作为研究议题,本文分别对这两个平台上关于该议题的文本(2018—2020)进行内容分析,并通过比较二者在内容呈现特征方面的差异,对主流媒体的舆论建构提出优化建议。本文分别在人民网和新浪微博以“中美贸易战”为关键词检索相关新闻和微博,收集在页面展示的所有数据,最终得到6378篇相关文章和92676条相关微博。将获取到的数据进行清洗,通过文献分析、文本分析、比较分
近年来,越来越多研究发现新兴污染物对生态环境和公共卫生有潜在的威胁。卡马西平(CBZ)作为一种持久性有机污染物,难以被传统水处理工艺去除。基于硫酸根自由基(SO4-·)的高级氧化技术对水体中的难降解有机污染物具有良好的去除效果,该论文设计循环流装置,构建炭活化过硫酸盐氧化体系,研究分析了该体系中活性炭纤维(ACF)重复利用率低的原因,引入直流电构建直流电耦合活性炭纤维活化过硫酸盐(E/ACF/PS
技术是指通过模型与算法将一段原始文本提炼为简短的概要。短文本摘要生成技术在网络评论的观点提炼、短文本信息压缩等方面有着广泛的应用。目前主流的短文本摘要方法分为生成式摘要和抽取式摘要。目前生成式文本摘要具有任务复杂度高、数据依赖强、重复生成、生成结果不通顺等问题,难以达到实际应用的要求。而短文本的抽取式模型采用基于删除的句子压缩方法,对于多句的提炼、摘要生成难以完成且压缩率难以达标。为了更好的满足现