论文部分内容阅读
微博作为迈向Web2.0时代的代表性应用之一,在最近几年得到迅猛发展。用户通过微博发布和获取信息,微博信息背后蕴涵着巨大的商业和科研价值,如何对这些微博进行分类是进一步挖掘短文本价值的关键,同时也是进行微博个性化推荐、热点发现、趋势检测及垃圾信息过滤的关键。然而由于微博文本通常篇幅较短、所含信息相对较少、特征较为稀疏,目前微博短文本分类面临着巨大的挑战。传统的针对长文本的文本分类方式并不能很好的作用于微博短文本,所以研究针对微博短文本的分类方法势在必行。首先,本文针对微博短文本分类过程中存在的特征较为稀疏、分类效果不好的问题。分析现有的微博短文本分类方法,并提出了基于隐含狄利克雷分布模型(以下简称LDA)的特征扩展的微博短文本分类方法。其次,在微博短文本原始特征基础上,应用LDA对具有类标签的训练数据进行建模,利用LDA模型得到相应短文本的主题分布,进而把所属主题词语作为微博短文本的部分特征扩充到原微博的特征中去。在此基础上使用向量空间模型SVM对微博短文本进行分类。最后,经实验验证,该方法大大改善了微博短文本的分类效果。针对微博短文本的特点,对微博短文本进行语义扩充,同时与基于同义词词林的短文本扩展的方法相比较,观察不同类别短文本的分类效果,每个类别的准确率和召回率都有明显的提高和改进。