基于问句深度语义匹配的社区问答方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:3pei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问句匹配,也称相似问句识别,是社区问答中的一个重要任务。它能有效利用社区问答已有的问答对数据集,提升用户体验。社区问答中,相似问句识别旨在从问答对数据集{q1,q2…,qn}中找出与用户问句q0语义相似的问句,并将对应的答案返回给用户。通常,社区问答中的相似问句识别分为召回与再排序两个阶段。首先,社区问答考虑时效性问题,利用检索等方法从大量的问答对数据集召回与用户问句相似的前k条相似问句;其次,基于召回的数据,社区问答利用二元问句匹配模型分别进行七次匹配识别,即复述识别,进行再排序。在这整个过程中,社区问答中的问句匹配存在着以下三个问题:●在排序过程中,前沿的二元问句匹配模型复杂度高,训练难度大,时效性低。●社区问答利用检索方法召回的准确率不够,导致错误传递问题。●社区问答中,存在着跨语言相似问句识别场景。但是,相关领域缺乏跨语言相似问句识别语料。针对以上三个问题,本文基于问句匹配的基本架构,结合深度神经网络模型对问句进行语义编码表示,分别进行了以下三个部分的研究:(1)基于多卷积自交互匹配的相似问句识别方法现有的相似问句识别方法通常将相似问句识别作为问句复述识别任务进行研究。相关前沿方法通常构建复杂的神经网络模型,借以对自然问句深层语义进行编码表示。这类模型复杂度高,训练难度大,运行速度慢。针对这类问题,本文提出了一种轻巧的多卷积自交互匹配方法。该方法通过融合不同的句子特征与词义特征获得语义丰富的词级语义表示;再利用卷积神经网络捕获短语级语义表示。通过构建多卷积自交互融合方法,将句子的词级与短语级语义表示进行融合,从而得到多粒度的句子语义信息。本文利用Quora语料进行实验分析,实验结果证明该方法取得了具有较高竞争力的性能。更为重要的是,该模型的复杂度、训练难易度、运行速度都大大优于前沿方法。具体而言,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。(2)基于语义空间距离的相似问句识别方法现有研究通常在两个自然问句之间进行“一对一”相似问句识别,与社区问答中的相似问句召回实际应用场景“一对多”有所区别。考虑整体时效性问题,社区问答通常是利用检索方法进行相似问句快速召回。在这过程中,召回数据的准确率不高,导致错误传递问题。针对此问题,本文受人脸识别任务的启发,提出一种基于语义空间距离的相似问句识别方法。该方法在训练时将相似问句识别任务作为多类别分类任务,通过训练得到语义编码模型。在测试使用时,利用该语义编码模型,将所有自然问句映射为相同语义空间中的向量表示,通过向量之间的距离进行相似问句的识别。本文通过利用Biendata的竞赛数据构建相关语料数据,通过实验验证,该方法在多个性能评估指标上,性能比基线方法高5%。(3)基于网络数据的跨语言相似问句语料自动构建方法在社区问答相似问句识别场景中,存在跨语言的相似问句识别场景。该场景需要跨语言相似问句识别语料推动相关研究的发展。但是,目前缺少专门针对相似问句识别的跨语言语料。针对这一问题,本文提出一种基于网络数据自动构建跨语言相似问句语料的方法。该方法通过爬取大型中文社区问答百度知道的用户问句,利用规则与语言模型过滤低质量的数据,同时利用神经网络翻译模型获取对应的英文问句数据。最后,该方法利用中-英两种对应的问句数据构建较大规模的跨语言中英相似问句数据集。本文在构建的跨语言中英相似问句数据集上实验了多个跨语言中英相似问句识别模型方法,其中XLM基准模型在该语料上取得90.45%的准确率,从而证明上述方法能够促进跨语言相似问句识别的发展。
其他文献
随着人类的生活环境污染日趋加剧、生活环境不断恶化,人们更容易接触到致癌因素从而患上癌症,癌症的发病率也在逐年递增。另外,癌症在人的体内会进行扩散,从而导致癌症转移,
随着新型运载火箭和导弹遥测等技术的不断发展,人们对于信息传输速率的要求也变得越来越高,从而导致传输信道的频谱资源紧张问题变得更加严峻。于是,基于多调制指数连续相位
非正规经济占据着整个国民经济的较大比重,在社会运行中扮演着降低失业率,保持社会稳定的功能。非正规经济的发展变化与地方政府的介入和管制息息相关,地方政府对非正规经济
拟穴青蟹(Scylla paramamosain)是我国东南沿海地区主要的海产蟹类之一,隶属于甲壳纲,青蟹属。本研究基于拟穴青蟹的转录组数据,拟从分子生物学的角度,对拟穴青蟹生长发育和盐度胁迫过程中与调控相关的Na+/H+-exchanger,Na?/K?-ATPase和ANT2进行克隆和表达模式分析,获得的主要研究结果如下:1.拟穴青蟹Na+/H+-exchanger的克隆和表达分析Na+/H+
CL-20作为已获得广泛应用的新型高能量密度化合物,是目前具有很好应用前景的炸药。但是,其使用受到机械感度较高、成本较昂贵的影响。目前在混合炸药降感研究中主要通过降低炸药晶格缺陷、与低感炸药形成共晶和添加粘结剂等方式实现降感。本文主要以分子动力学和耗散粒子动力学的计算方法研究CL-20降感机理和方法。以X射线衍射数据构建晶胞模型,通过切割分面法构建(100)、(010)、(001)三个不同晶面,并
高压共轨喷油系统是柴油发动机的核心技术,Piezo喷射器作为高压共轨喷油系统中最关键、最复杂的部件,受到我国汽车行业研究人员越来越多的关注。压电致动器(Piezo Actuactor)作为Piezo喷射器的核心部件,它的迟滞特性会使喷油器针阀的行程产生2~10%输出位移误差,若将其输入电压与输出位移看成简单的线性关系,将会影响Piezo喷射器的喷油量和喷油率。目前国内,控制Piezo喷射器的研究有
室温磷光具有寿命长、Stokes位移大、选择性好等优势而备受关注。目前实现室温磷光发射的策略主要是基于磷光分子的设计或磷光分子所处基质的构建。由于磷光分子设计与合成过程复杂,因此构建磷光分子保护基质成为研究的热点。传统的室温磷光保护基质大多由单一组分构成,导致室温磷光强度弱、稳定性差且无响应性等缺点难以克服。针对这些不足,本文构建了基于超分子凝胶的复合基质用于诱导磷光分子的室温磷光,获得室温磷光强
近年来,随着区块链技术的不断发展,联盟区块链因其具有的高性能、易管理、能提供高效服务等特性,相比传统区块链应用场景更为广泛,已经成为了研究的热点。而由于联盟区块链具
在我国随着人们生活水平的不断提高,人们愈加重视疾病检测和筛查,但如何实现低成本、快速、准确的现场检测一直是医疗诊断领域的研究难点。而横向免疫层析技术是近年来迅速发
空间智能作为多元智能之一,是影响学习、生活、艺术等多方面的重要能力。过去的研究指出重视对空间能力的培养有助于数学等学科的学习,同时也提出对关注空间技能和数学学习间的相关关系、空间技能对学生的数学表现进行预测等问题的研究期待。然而,空间能力目前仍是教师教学和学生学习中培养的难点,存在着教师难以施教,学生难以抽象理解的问题。本研究在上海市某中学高中一年级的两个班级开展,每个班级分别有37名学生共计74