基于LDA特征扩展的微博短文本分类

来源 :燕山大学 | 被引量 : 0次 | 上传用户:calvin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为迈向Web2.0时代的代表性应用之一,在最近几年得到迅猛发展。用户通过微博发布和获取信息,微博信息背后蕴涵着巨大的商业和科研价值,如何对这些微博进行分类是进一步挖掘短文本价值的关键,同时也是进行微博个性化推荐、热点发现、趋势检测及垃圾信息过滤的关键。然而由于微博文本通常篇幅较短、所含信息相对较少、特征较为稀疏,目前微博短文本分类面临着巨大的挑战。传统的针对长文本的文本分类方式并不能很好的作用于微博短文本,所以研究针对微博短文本的分类方法势在必行。首先,本文针对微博短文本分类过程中存在的特征较为稀疏、分类效果不好的问题。分析现有的微博短文本分类方法,并提出了基于隐含狄利克雷分布模型(以下简称LDA)的特征扩展的微博短文本分类方法。其次,在微博短文本原始特征基础上,应用LDA对具有类标签的训练数据进行建模,利用LDA模型得到相应短文本的主题分布,进而把所属主题词语作为微博短文本的部分特征扩充到原微博的特征中去。在此基础上使用向量空间模型SVM对微博短文本进行分类。最后,经实验验证,该方法大大改善了微博短文本的分类效果。针对微博短文本的特点,对微博短文本进行语义扩充,同时与基于同义词词林的短文本扩展的方法相比较,观察不同类别短文本的分类效果,每个类别的准确率和召回率都有明显的提高和改进。
其他文献
新课标中学地理教材把人类生活的地理环境、人类活动与地理环境的关系作为核心内容,在各章节中突出人地关系,进行环境教育,培养环境观。教师应充分挖掘教材和钻研教材中的环保教
<正>近几年,P2P理财来得很快,好像一夜之间就铺天盖地了;但不少P2P平台出现了问题,也像在一夜之间就消失得无影无踪。防范金融风险,规范P2P平台运营成为众望所归,在《征求意
党的十八大以来,以习近平同志为核心的党中央高度重视政党协商工作,习近平总书记就政党协商提出了一系列新思想新论断新要求,深刻论述了政党协商的重要地位、制度建设和主体