融合语义信息的问句分析技术研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:JK0803_shijiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习在人工智能领域的大幅发展,自然语言处理也得到长足的进步。其中,命名实体识别、自动问答系统等自然语言处理任务也开始大面积的普及和应用。自动问答技术的相关研究也已经深入到问句语义理解的层面,其中问句分析技术对问答系统的准确性起着重要作用,而命名实体识别在对话生成、关系抽取、信息检索等任务中起着基础支撑作用。问句分析作为问答系统的初始环节,能否正确理解问句会影响到后续任务的好坏。问句分类能够对系统提供较为重要的数据信息,这些信息对于帮助用户找到想要的答案至关重要。当前的问句分类体系尚未制定一个统一的标准,大多数研究者采用的是以答案类型为导向的分类体系,该种分类体系具有较易构建、分类粒度较为细致、类别覆盖范围广泛等特点。目前,问句分析问句特征提取研究已取得了较大的进展,但仍有一些问题亟待解决,如:对单一特征进行分类的精度不高、分类效果欠佳等等。这些问题导致发展遇到瓶颈,无法满足当前智能信息处理应用需求。以往的研究中,问句分析研究集中于基于机器学习的方法,问句中的特征依靠人工提取或者问题的表示组合自某几个特征,其问句表示具有主观性和多样性,无法精准表示;而基于深度学习的方法在学习能力上有较强的自适应性,容错率相对较高,具有较强的抵抗大规模数据集中噪声等复杂问题的能力。在问句分析上使用深度学习方法分析和学习句子中的语义信息特征,更好地增强问句分类的性能。本文使用基于深度学习的命名实体识别结合语义相似度计算方法,研究自动问答中的问句分析技术及其准确率表现,并构建和对比了基于不同提取语义方法的自动问答技术的准确度。本文以融合语义信息为切入点进行分析,主要工作有以下三个方面:(1)构建基于BERT-Bi-LSTM-CRF的命名实体识别优化模型构建并训练了基于条件随机场的命名实体识别模型,初步验证了条件随机场的模型性能。接着采用结合双向长短时(Bi-LSTM)和条件随机场的实体标注策略。模型训练时结合前后序列的信息特征,对序列路径进行归一化处理,对比分析了两种模型的标注性能。最后,实现了一种融合多模型策略的命名实体识别方法,将深度学习中的BERT技术加入到传统模型中,作为语义编码层来提升命名实体识别模型的准确度。(2)构建了基于语义相似度计算的问句分析方法利用BERT模型可以融合问句前后语义信息特征,将BERT作为词向量编码层输出问句向量,使用遮蔽语言模型(Masked Language Model,MLM)任务解决单向局限,使用下句预测(Next Sentence Prediction,NSP)任务学习句子与句子之间的关系,之后对问句向量做相似度计算,并通过对比不同词向量池化方法对模型性能准确度的影响,确定一种基于BERT的语义相似度计算模型作为问句分析中相似度计算的模型。(3)设计了融合语义信息的问句分析模型引入模块化融合技术,设计了一种分步骤、模块化的问句分析模型。本章研究了融合模式下融合语义特征问句分析的性能,将分别设计和训练的命名实体识别模块和语义相似度模块融合,做到高效率、低耦合。模型中融入语义信息,提升问句分析的性能,并与其他基于不同方法的问句分析模型作对比。实验结果表明,融合了语义信息的问句分析模型在性能等各方面都有所提升,在MRR上对比分别提升了2到5个百分点,有效提升了问句分析的整体性能。
其他文献
学位
我国地方政府债务为各地地方建设提供了重要资金来源,同时,地方政府债务在发展过程中也存在许多问题,导致地方政府债务风险升高。在当前经济背景下,减税降费等各项改革稳步推进,地方财政压力逐步加大。如何有效使用地方政府债务资金,以缓解财政压力、降低债务风险、推动地方建设,成为当前迫切需要解决的问题。当前研究者们的相关研究主要关注地方政府债务成因、扩张机制、风险测度和防范等方面,并且已经形成了比较系统全面的
学位
直播平台是指主要业务为通过传播实时直播内容,并提供用户与主播、用户与用户间进行实时互动功能的平台。中国直播行业的发展日趋成熟,行业格局也已经基本形成,但直播平台间的竞争还在不断加剧。尽管直播平台目前已经拥有大量的活跃用户,但其中消费用户的比例并不高。观众在直播平台上的消费行为主要表现为给主播赠送礼物,包括付费礼物和免费礼物两种类型。付费礼物需要观众充值购买,送出后能够拥有更显著的画面提示和更长的展
纸桶凭借其自身具备的质量轻、环保性好、价格低等方面的优点,在医疗化工行业的使用越来越广泛。纸桶包装的生产流程包括卷桶、烘干、分切、滚痕、组合、压底和卷缘。传统的纸桶生产设备在厂房中独立摆放,浪费了大量的空间资源,生产中存在纸桶压底效率低的情况。针对上述问题,并设计开发一款自动压底设备,工作立柱的运动方式由直线滑动转为电机带动回转盘进行旋转运动,将贴面与压底两道工序同时进行,以提高压底效率。本文采用
海藻产业是海洋渔业产业的重要组成部分,其规模化养殖不仅具有非常重要的食物供给功能,还具有十分显著的生态功能。海藻养殖业的快速发展为养殖业者带来了可观的经济效益,2017年中国海藻养殖产量为2235012吨,为全球海藻养殖第一大国,养殖和加工海藻的总量约占全球海藻产量的70%以上。藻类病害频发是困扰藻类产业健康发展的重要瓶颈问题之一,重要的大型经济海藻如海带、紫菜等的病害研究已经取得了一些重要进展,
从绘画的角度来说,绘画语言中的情感因素与艺术家的情感相结合,形成艺术作品的情感表达,而作品的情感表达是艺术创作者受到社会环境以及个人成长环境的影响,导致艺术创作者绘画的思考方式发生变化。情感表达与绘画语言是艺术作品形成的重要条件,艺术作品是在艺术创作中形成的,最终是被人欣赏的,影响人的审美。因此,情感表达与绘画语言这两者对于社会审美和艺术创作是很重要的。本文研究内容分三个部分进行论述,第一部分梳理
数学是一门极具严谨性的学科,数学验证是数学严谨性的体现。数学验证性思维的培养,更是数学学习过程中树立求真务实精神的保障。目前对于数学验证性思维的培养,其研究对象主要在于小学中高段以上,对于小学低段这一思维方法的萌芽期研究较少。同时研究内容也相对分散独立,未能将数学验证性思维作为一个完整教学体系而提出,并且许多相关研究都缺乏实证。故结合人教版小学数学低段教材的内容分析,从数与代数、图形与几何、统计与
每年三月,全国人大、政协会议的召开都会吸引国内社会各界及海内外人士的广泛关注。面对新媒体形态及新传播手段的出现给新闻传播带来的颠覆性变革,各大媒体在两会报道的内容和形式上都做了很多摸索和创新。而在2019年,主流媒体首次将“视频博客”运用于两会报道中,利用新的视频形式为受众呈现了“两会”中不一样的面貌,传播“两会”好声音。论文以主流媒体“两会”视频博客的表达方式为研究对象,采用了统计分析法、案例分
当今社会,儿童的心理健康问题并没有随着人们生活水平的提高逐步缓解,反而呈现出上升趋势。儿童期在人一生的成长发展中被称之为“关键期”,这个时期儿童的各方面可塑性强,心理发展具有阶段性、连续性的特点,无论是认知、思维能力、道德品质、人格魅力等各方面的能力都处于一个螺旋式的上升阶段。但是当他们面对生活环境的种种诱惑、学习的压力、人际交往问题时却很容易出现各种心理问题:轻度者有焦虑、不安的情绪问题;重度者