论文部分内容阅读
问句匹配,也称相似问句识别,是社区问答中的一个重要任务。它能有效利用社区问答已有的问答对数据集,提升用户体验。社区问答中,相似问句识别旨在从问答对数据集{q1,q2…,qn}中找出与用户问句q0语义相似的问句,并将对应的答案返回给用户。通常,社区问答中的相似问句识别分为召回与再排序两个阶段。首先,社区问答考虑时效性问题,利用检索等方法从大量的问答对数据集召回与用户问句相似的前k条相似问句;其次,基于召回的数据,社区问答利用二元问句匹配模型分别进行七次匹配识别,即复述识别,进行再排序。在这整个过程中,社区问答中的问句匹配存在着以下三个问题:●在排序过程中,前沿的二元问句匹配模型复杂度高,训练难度大,时效性低。●社区问答利用检索方法召回的准确率不够,导致错误传递问题。●社区问答中,存在着跨语言相似问句识别场景。但是,相关领域缺乏跨语言相似问句识别语料。针对以上三个问题,本文基于问句匹配的基本架构,结合深度神经网络模型对问句进行语义编码表示,分别进行了以下三个部分的研究:(1)基于多卷积自交互匹配的相似问句识别方法现有的相似问句识别方法通常将相似问句识别作为问句复述识别任务进行研究。相关前沿方法通常构建复杂的神经网络模型,借以对自然问句深层语义进行编码表示。这类模型复杂度高,训练难度大,运行速度慢。针对这类问题,本文提出了一种轻巧的多卷积自交互匹配方法。该方法通过融合不同的句子特征与词义特征获得语义丰富的词级语义表示;再利用卷积神经网络捕获短语级语义表示。通过构建多卷积自交互融合方法,将句子的词级与短语级语义表示进行融合,从而得到多粒度的句子语义信息。本文利用Quora语料进行实验分析,实验结果证明该方法取得了具有较高竞争力的性能。更为重要的是,该模型的复杂度、训练难易度、运行速度都大大优于前沿方法。具体而言,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。(2)基于语义空间距离的相似问句识别方法现有研究通常在两个自然问句之间进行“一对一”相似问句识别,与社区问答中的相似问句召回实际应用场景“一对多”有所区别。考虑整体时效性问题,社区问答通常是利用检索方法进行相似问句快速召回。在这过程中,召回数据的准确率不高,导致错误传递问题。针对此问题,本文受人脸识别任务的启发,提出一种基于语义空间距离的相似问句识别方法。该方法在训练时将相似问句识别任务作为多类别分类任务,通过训练得到语义编码模型。在测试使用时,利用该语义编码模型,将所有自然问句映射为相同语义空间中的向量表示,通过向量之间的距离进行相似问句的识别。本文通过利用Biendata的竞赛数据构建相关语料数据,通过实验验证,该方法在多个性能评估指标上,性能比基线方法高5%。(3)基于网络数据的跨语言相似问句语料自动构建方法在社区问答相似问句识别场景中,存在跨语言的相似问句识别场景。该场景需要跨语言相似问句识别语料推动相关研究的发展。但是,目前缺少专门针对相似问句识别的跨语言语料。针对这一问题,本文提出一种基于网络数据自动构建跨语言相似问句语料的方法。该方法通过爬取大型中文社区问答百度知道的用户问句,利用规则与语言模型过滤低质量的数据,同时利用神经网络翻译模型获取对应的英文问句数据。最后,该方法利用中-英两种对应的问句数据构建较大规模的跨语言中英相似问句数据集。本文在构建的跨语言中英相似问句数据集上实验了多个跨语言中英相似问句识别模型方法,其中XLM基准模型在该语料上取得90.45%的准确率,从而证明上述方法能够促进跨语言相似问句识别的发展。