论文部分内容阅读
对于目前许多的应用来说,都需要我们从语义上去理解短文本,从短文本中推测出隐藏的主题结构信息已经变成了一项非常重要、基础的任务。传统的主题模型基本上依赖文档集中单词之间的共现信息来推导文档背后隐藏的主题结构信息。然而,由于短文本的文档长度较短这一特点,短文本中单词的共现信息非常匮乏,我们称这种特征为短文本的信息稀疏问题。信息稀疏也成为了传统主题模型在短文本上难以成功的瓶颈之一。从另一方面来说,当我们人类去理解一小段文本时,不光靠文本内容自身,还有读者大脑中的背景知识(例如单词的词性,单词在上下文单词的联系等)。随着最近词嵌入(Word Embeddings)的迅速发展,这给我们带来了一些契机。词向量能够将单词映射到一个高维的空间之中,在语义、词法上较为接近的单词在该高维空间之中也更为接近。进而,我们可以认为在该高维空间中,不同单词之间的距离关系能够给我们带来更多的语义知识。在本篇工作中,我们利用词向量提供的这种额外语义知识来帮助提高主题模型在短文本上的效果。因此,我们提出了一种简单、高效、可扩展性强的主题模型,称为辅以波利亚罐子模型策略的狄利克雷多项式分布模型(GPU-DMM)。GPU-DMM是基于狄利克雷多项式分布(Dirichlet Multinomial Mixture)模型的一种扩展,它利用了一般化波利亚罐子模型(GPU)策略促进了单词的语义相似词在某个相关主题下出现的概率。经过一定的反复采样更新之后,我们在外部语料集上学习得到的背景知识(语义相关性)可以很好的融入到模型的主题推导过程之中,提高了主题模型在短文本上的效果。通过对近几年短文本主题模型之上的研究工作,我们选取了 4种模型作为我们实验中的对比模型。我们在两种语言的真实数据集上进行了实验,我们证明了其提出的新模型GPU-DMM在主题一致性指标上同已有的最优模型相比能取得更大的优势;根据主题模型的结果,每篇文档可以表达为主题分布,即每篇文档被表示成一个向量分布,并应用标准分类器支持向量机(SVM)在文档分类任务上,GPU-DMM同其他模型相比取得了更高的准确率。最后我们对比了模型的运行效率,实验证明新模型GPU-DMM在时间效率上也有一定的竞争力。