【摘 要】
:
随着经济的飞速发展,国人的生活水平迅速提高,人民对医疗健康领域话题的关注度日益增多。检索式医疗问答系统作为问答系统的子领域,可以根据用户提出的医学问题检索知识库,给出专业的医学答案,具有极其重要的研究与应用前景。典型的检索式问答系统主要包含召回模块与排序模块两个关键模块。在排序模块中,使用深度语义匹配模型对召回的数据重排序,深度语义匹配模型的性能直接影响到检索式问答系统的性能。因此,检索式问答系统
论文部分内容阅读
随着经济的飞速发展,国人的生活水平迅速提高,人民对医疗健康领域话题的关注度日益增多。检索式医疗问答系统作为问答系统的子领域,可以根据用户提出的医学问题检索知识库,给出专业的医学答案,具有极其重要的研究与应用前景。典型的检索式问答系统主要包含召回模块与排序模块两个关键模块。在排序模块中,使用深度语义匹配模型对召回的数据重排序,深度语义匹配模型的性能直接影响到检索式问答系统的性能。因此,检索式问答系统深度语义匹配算法的研究具有重要的意义。当前,深度语义匹配领域的突破主要来自于BERT等预训练模型的改进与发展。但是,预训练模型仍存在很多不足,其具有模型参数多、推理速度慢等缺点。因此,本文以提高深度语义匹配模型的准确率与效率为目标,并结合知识蒸馏技术,构建同时具有高性能与更快模型推理速度的轻量级检索式问答深度语义匹配模型。本文的主要研究内容如下:构建双向深度编码语义匹配模型MBDE。MBDE模型主要由编码层、时间序列层与信息抽取层组成,编码层利用多层Transformer编码文本上下文信息,时间序列层利用Bi LSTM建模位置信息,信息抽取层利用最大池化抽取全局文本关键信息。最终,在准确率与F1-score两个指标上分别取得了90.93%与0.9038的实验结果,领先于BERT模型,且MBDE模型效率高、推理速度快、参数量少,推理耗时仅为BERT的28.9%,参数量仅为BERT的40.1%。构建基于MBDE模型的语义匹配知识蒸馏模型MBDE-small。MBDE模型性能优异、推理速度快、参数量少,但为了达到更快的线上响应时间,满足实时性的要求,需要进一步降低模型延迟,对模型进行压缩。因此,结合模型压缩中的知识蒸馏技术,将MBDE模型的Embedding层与输出层中学习到的医疗语义匹配知识迁移到一个更加轻量化的蒸馏模型MBDE-small中。由实验可知,MBDE-small模型在准确率与F1-score两个指标上分别取得了88.95%与0.8836的成绩,领先于基线模型。在模型推理速度上,快于MBDE模型,推理耗时相比MBDE降低331ms,模型参数量相比MBDE降低2.5M。构建医疗问答语料库与检索式医疗问答系统。基于开源的医疗问答数据,通过一系列预处理过程、手工提取过程,构建得到医疗问答语料库Medical-QA。然后,基于医疗问答语料库Medical-QA,依次实现预处理模块、意图识别模块、召回模块、排序模块等模块来构建检索式医疗问答系统。对于意图识别模块,在准确率指标上达到了0.951的实验结果。对于召回模块,在MRR指标上达到了0.48的实验结果。
其他文献
“逆城市化”是城市发展的一个阶段,准确把握中外“逆城市化”的研究热点及演进趋势,对于“十四五”阶段城市提质增效、乡村全面振兴具有重要意义。文章利用CiteSpace可视化分析软件,对1980-2020年的1 112篇中外文献进行了定量分析。研究结果表明,国外的“逆城市化”多为“单轨”运行制,而中国则为“双轨”并行制。从研究热点来看,国内对“逆城市化”的研究主要围绕城市发展阶段、人口流动、现象的总结
以社交网络为代表的大规模信息网络层出不穷,如何充分利用这些信息挖掘出适应于各种任务的通用表示显得尤为重要。现实生活中的大规模信息网络往往包含许多复杂的交互关系和语义信息,且具有多源异质性,这给传统的网络表示学习(Network Representation Learning)方法带来了挑战。深度学习的出现给网络表示学习开辟了新道路,极大的促进了网络节点表示学习研究的发展。本文基于图注意力机制和生成
智慧司法概念的提出及司法公开平台的建设,促进了司法领域信息化进程的发展。随着以裁判文书为代表的司法大数据不断公开、人工智能技术不断突破,在司法人员处理案件效率的环节,通过人工智能技术有效使用海量数据解决司法问题逐渐成为法律智能研究的热点。目前,在智慧司法方面的研究主要集中于法律判决预测、相似案例匹配、法律问题解答等,争议焦点识别作为司法领域中的一项基础任务,对于庭审质量、审判效率的提高具有重要意义
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强
随着21世纪互联网的迅猛发展,web应用程序和APP的产品数量呈现井喷式增长,成为了人们日常生活中必不可少的一部分,由此带来了巨大的市场经济效益和广阔的行业发展空间。为在激烈的市场竞争中夺得一席之地,开发者需要及时了解用户偏好,对产品进行针对性地更新以提升其产品生命力。软件评论数据是开发者获取用户需求及喜好的重要来源。目前,评论分析通常遵循“数据分类——信息抽取”的一般过程,其中评论分类是数据有效
我国经济发展进入新时代,企业成为推动经济发展的重要力量。在这种情形下,企业的发展不进则退,人才是当今企业前进的驱动因素,人力资源是各个企业争相抢夺的对象,维持并能够源源不断地吸引人才是企业能够保持长远发展的重要因素之一。本文选择研究的公司是一家2006年在深交所中小板上市的通信配套服务公司,公司得益于优秀的人力资源,上市之后不断成长,2016年国脉科技首次发布股权激励计划,现已全部完成。本文对国脉
随着汽车保有量的大幅提升,汽车的安全性问题成为越来越多人关注的焦点。汽车高级驾驶辅助系统的出现为汽车安全性问题提供了解决思路。本着低成本、高集成的原则,本文以单目视觉传感器为基础,将车道线检测系统与车道偏离预警系统相融合,设计了车道线检测功能与偏离预警决策功能于一体的车道偏离预警系统,以期更好地实现汽车偏离时的提前预警达到辅助驾驶的目的。本文首先进行摄像机标定,并对汽车驾驶视频流以符合人眼刷新的频
近段时间以来,数据挖掘和预测分析技术已经无处不在地应用到了在我们的日常生活中,社交网络的兴起也为我们带来了极大的便捷。随着社交网络的用户规模呈几何级增长,与之相关的研究也在近期逐渐流行起来。社交网络中用户的行为可以对与之相关的其他用户行为产生影响,在潜移默化中对其他用户的思想或行为进行改造,因此除了为了留住用户,也是为了通过用户间的关系进行深层次的信息挖掘,对用户进行相关信息推荐极为重要。通过社交
随着经济的飞速发展,汽车惠及大众的同时也引发了大量的交通事故。汽车高级驾驶辅助系统和无人驾驶技术在辅助驾驶和提高行车安全方面具有极大潜力,因此受到了广泛关注。车道线检测作为汽车高级驾驶辅助系统和无人驾驶中基础且重要的部分已经成为研究热点领域,但在弯道检测、“无视觉检索”等方面仍需进一步研究。基于传统的车道线检测方法一般先进行一系列图像预处理,然后再根据提取到的图像特征进行车道线拟合,输出检测结果时
近年来,汽车保有量在逐年递增,但是相应的停车资源却增长缓慢,同时现有停车资源并没有得到充分的利用,这使得停车难问题愈加严重。因此可以通过提高停车资源的利用率来缓解停车难问题。本文设计实现了一个共享停车资源信息的服务平台,为驾驶员停车提供参考信息,以提高停车资源的利用率。平台采用前后端分离架构,使用Django和DRF作为后端开发框架实现平台后端功能服务的各项业务逻辑;使用Vue和uni-app作为