论文部分内容阅读
近些年,随着互联网技术的迅猛发展,一大批社区问答网站开始涌现,比如Yahoo!Answers、Stack Overflow以及Quora等。用户可以在这些网站上自由地提问,也可以回答其他人所提出的问题。每个用户在使用问答网站时都希望能够尽量快速准确地满足自己的需求,因此如何对已有的问题进行准确的、细粒度的分类已经成为一个重要的研究课题。目前,问题的细粒度分类主要存在以下几个难点:(1)问题文本长度短,从有限的文本中难以提取充足的信息来确定问题文本的主题;(2)标签信息量少,在实际应用中难以通过标签的信息来获取主题信息以及所属领域信息;(3)细粒度分类任务中,各个类别之间的特征差异小,如何引入更多的信息来将问题的主题与具体的细粒度分类的类别进行匹配是问题细粒度分类研究的重点。针对以上几个难点,本文提出了基于语义扩展与多层注意力模型的问题细粒度分类算法(Classifying Questions into Fine-Grained Categories using Semantic Expansion and Multi-layer Attention Network,SEMAN),其中语义扩展解决了原始问题文本信息量少的问题,而多层注意力模型可以得到类别之间的微小的特征差异,进而提升分类效果。本文最主要的贡献有:(1)本文提出了基于依存句法分析树的语义单元选择方法,该方法可以准确找出问题文本中的中心成分,并且围绕该中心成分可以找出包含问题语义信息的关键短语或者核心词。(2)本文提出了基于Word2Vec模型的语义单元扩展算法,该方法利用Word2Vec模型中相近语义之间的词的距离接近这一特性,对原始问题文本进行了语义层面的扩充。(3)在语义扩展基础上,本文提出了多层注意力模型,该模型可以避免传统的注意力模型在文本向量化表示时只能提取句子单个方面语义信息的问题,从而充分提取句子在多方面的语义信息。本文的实验基于Yahoo!Answers医疗领域数据集和Yahoo!Answers教育领域数据集。为了验证本文提出的SEMAN算法的有效性,本文设计了多组对比实验。最终的实验结果表明,本文提出的SEMAN算法在各项评估指标上均取得了较好的结果,可以有效地解决问题文本特征稀疏、细粒度类别特征差异不明显的问题。