论文部分内容阅读
随着互联网技术的飞速发展,如今的网络在线数据以短文本的形式呈爆炸性趋势增长。话题检测与跟踪技术就是为了应对日益严重的互联网信息爆炸问题提出的一种信息处理技术,对网络舆情预警具有非常重要的作用。传统的话题检测与跟踪的技术基本都是针对新闻报道进行研究的,这些新闻报道的文本格式比较规范,篇幅较为统一,与现在网络上流行的短文本数据特征差异很大,使得传统的文本处理方法已经不再适合对短文本数据进行处理。基于此,本课题提出了一种新的基于主题模型的短文本聚类方法,对微博数据进行话题检测与跟踪研究,旨在为网络舆情监控提供有力支持。具体研究工作主要包括:1、对传统的话题检测与跟踪方法进行了调研,了解了已有的相关技术。又对现在的微博文本数据格式进行了分析,从微博平台的特征出发,再结合用户的行为习惯进行分析,找到微博话题的文本格式特征,得到微博话题的文本数据具有时效性、稀疏性、奇异性和冗余性等特征。由于这些特征,使得将传统的话题检测与跟踪方法运用到微博数据上进行处理时存在严重的高维、稀疏等问题。2、通过对微博话题的文本格式特征进行分析,设计了一套基于主题模型的算法,其主要思路是:对采集的原始文本进行预处理后得到关键词;由关键词构建文档词条矩阵;根据文档词条矩阵生成词语关联矩阵,并提取主题词;然后对主题词进行聚类,从而生成主题模型。3、将主题模型运用到话题检测与跟踪步骤中,利用文本与主题模型相互进行匹配,可以得到文本类别,以此实现文本的聚类,从而达到话题检测的目的。再通过对每一个时间段的数据进行话题检测,得到其话题的数量,然后进行统计分析,可以得到每一天内话题出现的情况。最后通过实验证明,该方法可以有效解决数据处理的稀疏、高维的问题,在话题检测的准确率上能取得较好的结果,并能够清晰的展示出话题的演变情况。