基于机器阅读理解的政务问答系统研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zeiwu158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2018年李克强总理提出“互联网+政务服务”概念以来,国内的政务智能问答系统不断涌现。但是大多数的政务问答系统都是基于知识图谱的检索式问答,由于实体和关系的抽取比较复杂,导致知识图谱的构建需要耗费大量的时间和人力。随着深度学习技术在自然语言处理中的广泛应用,目前也出现了一些基于机器阅读理解的问答系统,但是由于这些机器阅读理解模型结构设计过于简单,只能适用于一些简单问题的回答,对于多跳推理的复杂问题,不能很好的解决。针对以上问题,本文主要工作有:1)政务知识库的构建:通过Scrapy框架对各个省部级官网的政务新闻进行爬取和清洗,然后将其存储到Elastic Search的检索库中。当输入一个问题时,通过Elastic Search给出与当前问题相关的几篇文章。为了提升Elastic Search的检索准确率,研究了建立倒排索引所需的分词技术,如:LAC,Jie Ba等分词方法,以及BM25,TFIDF等文本相似度匹配算法。2)政务文章的精排序:由于Elastic Search的检索是基于词级别的匹配,没有进行语义方面的深度匹配。针对此问题,本文研究了Point Wise,Pair Wise,List Wise等文章精排序算法,提出了一种基于Roberta的多层信息注意力融合的排序模型,比原始Elastic Search在命中率上高9%,比未进行多层信息注意力融合的Roberta模型在命中率上高1.5%。3)阅读理解模型构建:研究了传统的Doc QA,Bi DAF,QANet等阅读理解模型,以及目前基于预训练任务的阅读理解模型。由于有些问题在文章中得出答案需要进行多步推理。而现有的模型很难解决这种问题,为了解决这种问题,本文结合Roberta预训练模型,提出了一种基于图神经网络的机器阅读理解模型。该模型比不加图结构的Roberta模型在法研杯阅读理解数据集上joint F1高出2.18%。在Hotpot QA数据集上,joint F1比原始的Roberta模型高出了0.65%。在本文的政务阅读理解数据集上EM指标提高了0.12%,F1指标提高了0.17%。最后借助Flask web框架实现了基于机器阅读理解的政务问答系统。当用户向系统提问问题时,首先,在Elastic Search中粗粒度的召回10篇文章,然后采用精排序模型对召回的文本进行精排序,接着,将最相关的五篇文章拿出来和用户提问的问题做阅读理解任务,最后,锁定问题的答案,展示给用户。本系统主要提供两种政务服务,一种是智能政务问答,另外一种是相关文档的检索。
其他文献
近十几年来,随着云计算技术与数据智能技术的成熟,依赖生产中积累的数据,智能决策在企业生产中发挥了指导性作用。通常支持智慧决策的数据量级在BT甚至PT,而且由于各个业务场景的不同、信息化存储技术的差异以及信息的不透明性导致数据呈现出“数据孤岛”的现象。如何把来源不同、格式各异和特点相近的数据在逻辑上或物理上有机地集中在一起,形成格式标准化、访问一致化、数据存储集中化的统一数据成为企业数据仓库建设中面
在科技较为发达的今天,人们更加依赖使用计算机与手机进行信息的交换,文字成为了目前最主流的信息传播媒介。在传统的书面文字中,手写汉字往往都具有鲜明的个人特征,而当前绝大多数人在数码设备上所使用的文字字体为标准楷体或宋体。在同质化的网络时代,人们越来越青睐于能够满足他们个性化需求的产品,所以人们对于个性化字体的需求越来越明显,个人手写字库显得越来越重要。通过使用个人手写字体,不仅能够使得文字信息在信息
超短脉冲激光的出现为科学研究提供了强有力的工具。尤其是,飞秒紫外激光具有波长短、单光子能量高和时间分辨率高等特点,在物理化学、生物医学以及超精细微纳加工等方面具有重要的应用价值,但大多数超短脉冲激光器输出波长集中在近红外和中红外波段,因此,通常需要通过频率变换获得飞秒紫外激光。而飞秒激光谐波变换过程中存在群速度失配、高阶非线性效应等效应,很大程度上限制了频率转换的效率,因此开展这方面研究有着重要意
2016年新颁布的神经系统肿瘤分类指南中以异柠檬酸脱氢酶(Isocitrate dehydrogenase,IDH)基因表现型为基础对脑胶质瘤进行系统分类。由于现有基因型诊断技术的周期长且有额外创伤,而核磁共振成像技术(Magnetic resonance imaging,MRI)拥有无创、快速和可重复的优点,将其与人工智能方法相结合能做出人力所不能及的医学判断。所以,本文旨在利用多序列MRI技术
极化码因其特有的递归结构特性以及较低的编译码复杂度,在通信领域备受关注。在其译码方面,连续删除(Successive Cancellation,SC)译码的改进算法性能很好,但因其固有的串行结构,对于较长码字而言,其时延和吞吐率并不满足高速通信的要求,因此其在5G通信中只适用于短码场景。由于神经网络强大的学习能力及离线操作,在目前的研究中已经提出将各种类型的神经网络和极化码相结合,来改善译码性能和
由于互联网的普及,使得对无线通信系统的探索愈来愈热。而在无线通信系统的研究工作中,提升射频收发机的性能是研究之重。一个射频收发机系统主要由LNA(低噪声放大器)、混频器、ADC/DAC(模数/数模转换器)、PA(功率放大器)、频率合成器以及滤波网络等功能模块组成。VCO是PLL频率合成器中的核心模块。VCO的调谐范围确定了PLL系统的输出频带,相位噪声和功耗性能对PLL乃至整个无线收发机系统有很大
与均匀阵列相比,稀疏阵列具有更低的阵列互耦和更高的自由度,在相同快拍数下有着更小的数据运算量,近些年来受到雷达、水声及电子战领域的广泛关注。将稀疏阵列搭载在运动平台上,利用被动孔径合成技术构造虚拟合成阵列,是众多改善稀疏阵列结构的方法中相对简单的一种,相比于设计新的稀疏阵列而言更具有研究意义与价值。而目前国内外对稀疏阵列进行优化设计时大多只基于自由度和互耦等结构性参数展开,并没有将信号源DOA和信
近年来,随着卷积神经网络和三维数据获取技术的不断发展,三维目标检测技术已经成为计算机视觉和自动驾驶领域的核心技术之一。与二维目标检测技术相比,在三维空间中进行目标的位姿估计对于实际应用场景更加重要。相比于二维图像数据,三维点云数据具有不受遮挡、光照变化影响且含有目标的位姿信息的优点,然而没有提供语义信息;二维图像数据具有丰富的语义信息,然而易受遮挡、光照等的影响且不含有目标的位姿信息,所以,它们二
本文基于电磁波在大气中的传播规律,分析了在地-电离层波导中透射电磁波传播路径的求解方法,研究了超视距下电波的传播特性。针对微小区电波传播预测算法对环境变化适应度不高的问题,本文采用遗传算法结合实测功率数据反演了给定环境的最优电参数,提高了微小区电波传播预测算法的仿真精度与环境适应性。将智能优化算法与优化后的微小区电波传播预测算法相结合,研究了基于网规网优理论的微小区最优化基站位置的获取方法。本文的
随着经济的不断转型和发展,企业核心竞争力已经成为企业发展的关键,对于非核心业务,企业往往选择将其进行业务流程外包。在大型设备的销售过程中,往往需要生产商提供安装及调试服务,但受到地域、工期等因素的影响,生产商通常选择将安装及调试服务外包给第三方施工队。在这种情况下,传统做法是通过电话沟通、现场监管、做工作记录来跟踪监控施工进度。但是,这种传统管理方式往往会带来各种问题,如施工效率过低、数据不易保存