论文部分内容阅读
自动问答系统是自然语言处理领域的一个重要任务。以“问答对”为基本成分的语料库是自动问答系统答案的主要来源,语料库中的“问答对”一般都从百度知道、知乎等问答社区中抽取的。然而,问答社区中的一个问句通常有多个答案,从不同的角度回复问句,自动问答社区中的答案却只选取其中一个答案作为问句的回复,这就导致语料库中的答案不够全面。因此,本文研究答案融合方法,将多个候选答案进行融合,从而解决自动问答系统语料库存在的不全面、冗余等问题。本文使用深度学习方法、注意力机制等方法解决答案融合问题。答案融合方法是从多个候选答案中抽取答案,因此答案抽取的准确性,决定了答案融合方法结果的准确性及全面性。同时答案融合方法得到答案是从多个候选答案中抽取的,语义存在着不连贯、可读性差的问题。因此本文从答案自动抽取及语义连贯性两个方面提升答案融合效果。答案自动抽取能够从多个候选答案抽取中能够答案问题的答案句,使答案更加精简、更加全面。语义连贯性通常表现为段落内的句子顺序,因此使用句子排序方法解决答案语意连贯性问题,增强候选答案间的语意连贯性,使答案融合结果可读性更好,语义更连贯。本文主要研究工作围绕答案自动抽取以及句子排序展开,分为以下四个方面:1、基于词共现的答案自动抽取模型。本文利用句内注意力机制对问句及答案句进行特征提取,同时针对语料,引入词共现特征、文档倒数特征、词相似度特征,并采用随机采样方法处理语料中存在的数据不平衡问题。对比基线方法,基于词共现的答案自动抽取模型能够提高抽取答案的准确度。2、基于句子匹配的句子排序方法。本文将深度学习方法引入句子排序中,使用深度学习方法解决句子排序问题,同时将句子匹配方法引入句子排序中,对比基线方法,模型提高了句子排序方法的效果。3、基于注意力机制的句子排序方法。为了增强句子排序模型捕捉语义逻辑关系的能力,将注意力机制引入句子排序任务中,实现了基于静态注意力机制的句子排序模型、基于词对齐注意力机制的句子排序模型以及基于句内注意力机制的句子排序模型。基于注意力机制的句子排序方法能够有效捕捉句子间语义逻辑关系,提升句子排序效果。4、答案融合系统设计与实现。对答案自动抽取模块及句子排序模块进行整合,实现答案融合系统,解决语料库构建中存在的语义不全面、冗长的问题