问答系统的答案优化方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaohuimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来和计算机硬件体系的不断更新,人工智能在学术界和产业界都取得了长足的发展,如人机博弈、自动控制等。自动问答是人工智能的一个重要分支,它建立在自然语言理解的基础上,能够针对真实环境下用户的提问给出精简准确的反馈以满足其信息需求。问答系统的性能往往依赖于内容准确、表达合理的高质量知识库,其来源主要为互联网上大规模的异构信息;然而,由于互联网用户群体的复杂性和知识抽取方法的不完备性,问答系统知识库中存储的候选答案常会出现表述不合理的情形,例如答案语句的语法表达不当、语义关系表述失准或给出的回复对上下文信息考虑不足等,另外,问答系统在线运行时的复杂环境也使得不可靠答案的出现难以避免。基于以上分析,本文提出问答系统的答案优化方法,旨在对答案中潜在的不合理表述进行校验,从而优化答案质量,提高问答系统的回复能力。主要研究内容包括:1、基于深度卷积神经网络的答案语法错误修正。互联网用户群体的复杂性使得不符合语法表达规范语句的存在难以避免,而互联网作为自动问答系统知识库的主要来源,其语言表达的不规范性将直接影响到系统生成答案的质量,进而影响用户的体验。本文从语法层次出发,主要探索如何自动发现语句中的语法表达错误问题并加以修正,以保证系统返回答案中语法表达的合理性。为此,本文提出基于深度卷积神经网络的语法错误检测模型,模型使用词向量和词性向量作为输入,通过卷积神经网络对候选样本的上下文进行特征学习。模型学习的目标函数为最大化预测值和观察值之间的边缘间隔。实验证明,与传统统计学习方法相比,本文提出的深度模型对语法错误产生时的上下文特征具备更强的学习能力,并能取得比传统方法更优的结果。2、基于弱监督学习的答案语义关系抽取。大规模语义知识库可以为问答系统回答事实类问题提供支持,但由于知识抽取等方法仍存在一定局限性,语义知识库中难免会存在不准确、不合理或过时的语义信息,从而导致答案中对于语义的表述出现异常。本文从语义层次考虑,主要研究如何根据已有的小规模语义知识库和较新的大规模自由文本学习新的语义关系,从而更新和补充问答系统的语义知识库。弱监督学习是实体语义关系抽取的主要路线之一,也是对知识库进行更新和补充的重要途径,本文在弱监督学习的基础上提出基于高质量样本的实体语义关系抽取模型。在参数学习过程中,模型通过应用多种评价策略来选择高质量训练样本,以降低不可靠样本对分类的影响、优化语义关系分类器。实验证明,基于高质量样本的实体语义关系抽取模型可以有效降低训练样本集合中的噪声,与基准方法相比,模型能够取得更优的F1值和P-R曲线。3、基于上下文的社区问答答案选择。社区问答网站为问答系统知识库的构建提供了大量资源,而如何利用上下文信息进行答案选择是针对社区问答所开展研究中的一个难点。本文从语境层次考虑,主要研究如何高效、全面地学习和利用上下文信息来进行答案选择(即问答对抽取)。通过分析发现,社区问答的答案质量与内容关联和标签依赖两种上下文关系密切相关,为此,本文提出基于上下文的答案选择深度模型,该模型通过深度卷积神经网络对问题和答案进行编码,利用融合注意力机制的长短时记忆网络对内容关联进行学习,并使用条件随机场对标签依赖进行学习。实验证明,两种上下文关系在答案选择过程中不可或缺,提出的模型相较于对比方法能够获得更优的F1值。4、基于用户反馈的不可靠答案识别。用户反馈是自动问答系统成长和进化的良药,除了显式的用户评分,人机交互过程中的用户行为也在一定程度上反映了答案的优劣。本文从语境层次考虑,主要研究如何有效地捕捉真实人机交互过程中用户所反馈出的不可靠答案,从而为答案的进一步优化或知识库的更新提供依据。通过分析发现,对话系统中的用户反馈包括用户意图和用户情感两个方面,系统回复的不可靠答案通常由用户进一步的动作或表现出的情绪反映出来。为了研究人机对话中不可靠答案与用户反馈之间的关系,本文首先构建了一个真实环境下的对话数据集并对其中的不可靠答案进行标注和分析,然后通过定义一系列语法和语义等特征来描述两种用户反馈因素,并利用有监督学习方法对不可靠答案进行识别。实验证明考虑用户意图和情感两方面因素能够更好的识别出不可靠答案,从而为系统优化提供更有价值的线索。
其他文献
前些时候,公司招聘业务人员,其中一位应聘者资历显赫,对于公司来说,有小庙容不了大佛的顾虑,因此公司对他不抱太大的希望。面谈时,公司很诚实地告诉他,依据公司规定,无法给予他太高的
目的分析经阴道B超和宫腔镜对异常子宫出血的诊断价值。方法选取2016年9月~2018年11月在本院接受诊断的异常子宫出血患者57例作为研究对象,所有患者均接受经阴道B超和宫腔镜
北京全聚德西翠路店在毗邻奥运会五棵松场馆的西翠路瑞成大酒店内。他们秉承全聚德:“全而无缺,聚而不散,仁德至上”的精神,制作出的烤鸭美味精致。出任全聚德西翠路店行政总
<正> 发动机烧机油是经常遇到的问题。其原因可能有以下几种:活塞环磨损;气缸垫泄漏;进气歧管垫片密封不严;而最常见的原因是机油通过进气门导管漏入燃烧室。发动机机油通过
进行安全性检查时,一定要严格遵守程序。首先检查照明装置,然后打开发动机罩,检查皮带情况。检查底盘时,应按驱动型式和制动型式从前到后、从右到左对各处进行检查,从而使故
2007年4月上旬,达能因收购中国著名的乐百氏,娃哈哈和光明乳业公司的控制权举动而引起了国内行业人士和媒体的广泛注意,也让这个全球食品巨头在中国的战略布局逐渐浮出水面。
对巴西甘蔗渣亚铵法蒸煮工艺及其蒸煮脱木质素机理进行了研究,结果表明:影响巴西甘蔗渣亚铵法蒸煮脱木质素的主要工艺因素是蒸煮最高温度,其次为氨水用量,影响最小的因素为亚铵用
便利店在城市中的发展被视为衡量城市化进程的一个重要指标。便利店作为一种被引进的新型零售业态,它给城市居民的生活方式带来怎样的影响呢?本文围绕这一问题展开探讨,便利
随着城市生活成本走高以及各内陆省份开发如火如荼地展开,吸引了大量劳动力归乡,珠三角和长三角等地劳动密集型企业开始感受到压力,所谓的"民工荒"随处可见,尤其在沿海地区有愈
例一:赛拉图天窗不能工作车型:赛拉图1.6L GLS MT.行驶里程:42156km.故障现象:天窗不能倾斜上升,也不能滑开.故障诊断:1.根据故障现象,分析故障原因有:①蓄电池常时电源.②点