论文部分内容阅读
随着互联网技术的快速发展,人们可以通过多种互联网渠道获取信息。在线问答社区系统为用户提供了便利的平台,这使得社区问答网站拥有庞大的用户生成内容(User Generated Content,UGC)。大量的用户生成内容必定存在低质量的信息,严重影响用户的检索效率,因此,对社区问答系统中的候选答案质量进行评估一直是一项重要的研究工作。众多研究者不断尝试利用机器学习对NLP任务进行处理,在候选答案的质量评估工作中,研究者开展了大量的研究工作。现有的方法主要围绕选取合适的机器学习算法与挖掘文本更深层的特征,主要特征之一是“问答对”的语义相似度,但是众多研究者都利用隐含狄利克雷LDA(Latent Dirichlet Allocation)主题模型来计算问答对的语义相似度,忽略了“问答对”是短文本,而LDA处理短文本的效果并不好。此外,社区问答系统中答案的评论存在一定的价值,因为答案评论是对答案质量的直接反馈,因此,如何提取答案评论特征并将其融入合适的排序算法中具有较好的实际意义。针对上述存在的问题,本文提出了一种中文问答社区候选答案质量排序模型。在提取众多有效特征的基础之上,本文采用了适合处理短文本语义相似度的计算方法,此外,加入了答案评论的情感极性特征,最后融合众多特征与排序算法构建了候选答案质量评估模型。本文研究的主要内容有如下几方面。为了提取“问答对”的相似度特征,本文首先介绍文本相似度计算方法,主要包括:余弦相似度、KL(Kullback-Leibler Divergence)距离和JS(Jensen-Shannon)距离,然后通过实验对比,确定使用JS距离计算“问答对”的相似度。为了计算“问答对”的语义相似度,首先提取“问答对”的主题。因此,采用了两种主题模型进行实验分析,并比较这两种主题模型的效果,最终确定主题模型BTM更适合应用于社区问答网站,因为社区中“问答对”的文本偏向于短文本,BTM对语料库进行分析与推导,短文本进行扩展,因而可以克服LDA处理社区短文本的不足。主题模型LDA处理短文本具有一定的缺陷,因为短文本的信息量少,向量特征稀疏等特点。利用BERT模型对答案评论情感进行分类,将答案评论情感极性转化为候选答案质量评价特征,接着将此特征融入排序算法对“百度知道”候选答案进行质量排序任务。最后本文利用基于Pairwise排序模型融合多特征进行排序工作。首先介绍基于排序算法模型的原理及其优势,通过对比Pointwise与Pairwise两类不同的算法模型的优缺点,介绍排序模型的原理,对比了三种不同的排序模型的性能,本文最终选取了Rank SVM排序算法融合多特征构造了答案质量排序模型。将本文的答案质量排序模型的评价效果与其他研究者对比分析,实验结果验证了本文方法的有效性。