基于机器阅读理解的中文智能问答技术研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:wang5632968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能问答技术能够帮助人们在繁杂多样的网络信息中精准地找到需要的内容,有效地解决了传统检索过程中精准定位答案的难题,而机器阅读理解作为智能问答技术中的全新方法,无需建立大规模的问答知识库,从而大大降低了对于知识库的构建、维护和运营成本。本文基于迁移学习模型对中文阅读理解问题进行探索,并优化了目前前沿的迁移学习模型结构,构建了性能优良的中文机器阅读理解模型。具体研究内容如下:(1)本文提出了一套基于多种特征挖掘手段的特征集构建方法,来帮助模型模拟人们平时的阅读习惯方法。主要挖掘了三类先验特征分别为:文章先验特征,问题先验特征,文章和问题交互特征。其中,文章先验特征包含文章的词性特征,命名实体特征。问题先验特征包含问题的词性特征,命名实体特征和类别特征。文章和问题交互特征包含共现特征和距离特征。并根据迁移学习对文档长度的限制,详细展示了一套适用于迁移学习模型的多文档、多答案训练集和标签集的构建方法以及样本均衡策略。(2)本文提出了一种基于多层全注意力机制的BERT-wwm-MLFA迁移学习模型。首先基于融合机制将单向和双向注意力机制合并为全注意力机制,然后根据基准模型BERT-wwm不同层对文本语义提取侧重不同,使用全注意力机制对基准模型不同层的编码结果进行交互和拼接,并使用指针网络对结果进行输出,最后针对答案来自同一文档不同片段的情况设计了改进型的多答案抽取模块和对应的损失函数。并使用对抗训练方法,在训练时添加扰动因子,提高模型的健壮性和准确性。经过实验证明,本文提出的BERT-wwm-MLFA模型能够对取得较好的预测效果,达到了ROUGE-L为0.837,BLEU-4为0.738。(3)为了初步实现机器阅读理解模型在智能问答方面的应用,本文使用军事领域的中文机器阅读理解模型和Elastic Search搜索引擎搭建了一套中文智能问答系统,该系统支持用户登录,自动问答以及相关文档导出等功能,还支持不同领域的问答模型功能扩充,为多领域的智能问答提供了可能。
其他文献
综合行政执法改革是我国行政执法体制改革的重要环节,在我国已有20多年的改革历程。十八届四中全会以来,全国22个省(自治区、直辖市)的138个城市开展综合行政执法体制改革试点,十九届三中全会印发的《深化党和国家机构改革方案》对深化行政执法体制改革做出了明确部署,标志着综合行政执法改革进入深化阶段。从当前的改革成效来看,综合行政执法有利于进一步理顺行政执法体制,提升执法效率和监管水平,切实解决多头执法
20世纪80年代,杠杆并购兴起于以美国为代表的西方发达国家,历经几十年的发展,杠杆并购作为一种高效并购方式逐步走向成熟。但与西方发达国家相比,杠杆并购在我国出现的比较晚,并且中国特色制度环境下的杠杆并购与西方市场上的杠杆并购相比存在一定差异。随着我国企业跨国并购的步伐,对企业自有资金要求较少的杠杆并购也开始更多的得到使用。在这一大环境下,对杠杆并购的研究具有一定的现实意义。本文选取的西王食品并购K
受经济全球化以及全球旅游业蓬勃发展的影响,全球免税市场规模不断扩大,呈现出光明的增长前景。而得益于全球免税市场的不断扩容以及亚洲免税市场良好的发展环境,韩国免税行业也逐渐成为全球免税行业的重要板块。韩国新罗免税店作为韩国免税业两大巨头之一,2018年度的销售额达到54.77亿欧元,成为韩国第二、全球第三的全球知名免税店。然而,近年来,韩国政府不断增加免税特许权数量,使得韩国国内免税行业陷入竞争饱和
二十一世纪以来中国科学仪器市场迅猛增长,庞大的市场份额吸引了各大仪器制造企业加快在中国市场的投资和布局,市场竞争愈发激烈,各大仪器制造企业不断优化产品结构,完善自身产品,以获得市场竞争优势。随着科学技术的发展,产品的融合越来越严重,企业很难在产品性能上获得较大的竞争优势,这使得售后服务的重要性日益突出,目前客户关心的不仅仅是仪器的性能和价格,更关心的是仪器售后服务的多样性和及时性,从某种程度上讲,
质谱是一种对待测物质进行定性或定量分析的精密分析方法。质谱仪器种类繁多,其中单四极杆质谱仪在食品安全检测、环境安全监测、药物开发与质量监控等领域有着广泛应用。质谱仪器精密复杂,需调节电学参数较多,参数设置不合理,会导致实验结果出现较大偏差。质谱仪电学参数手动调节不仅繁琐、耗时较长而且会引入人为的误差,造成实验结果的不准确,质谱仪的用户往往非仪器开发工程师,一般不具备调节仪器电学参数的能力,所以仪器
人们在日常生活中越来越注重噪声问题。电磁炉具有众多优点,逐渐成为21世纪不可或缺的家用电器之一。但它在使用过程中会辐射出较大的噪声,影响使用感。本文从噪声源控制的角
随着汉语教育事业的发展,越来越多的国家和地区开设了孔子学院和孔子课堂。2012年,韩国与国家汉办签署了“赴韩汉语教师志愿者”项目,越来越多的志愿者教师投身于韩国中小学的汉语教学。协作教学模式在韩国汉语课堂中应用十分广泛,相关研究多着眼于该模式本身,而针对协作教学在高中汉语课堂教学的研究还不充分。笔者2019年有幸成为赴韩志愿者教师中的一员,在韩国中学进行了为期一年的汉语教学。因此,本文在前人研究的
随着人类在地球上的大范围以及高强度的活动,地震观测数据的质量受到严重的影响。各地的地震监测台网所记录的地震信号中包含许多非天然地震事件(爆破、塌陷)的信号。若这些非天然地震的信号不能及时的剔除,就会对地震学的研究造成较大的影响。但是海量的地震监测信号,如果都通过人工去一一识别分类,那么就会浪费大量的时间与精力。因此实现高效、高精度、泛化性能强的震源类型识别分类算法在地震大数据时代下显得尤为重要。根
时间很贪婪,因为它会吞噬所有的细节,而令年的时间进度务已更新至90%.在过去的十个月里,你是将大把的时间用来迷茫,还是关心灵魂,让读书带走了时间?无论如何,你怎样安顿了时间
期刊