论文部分内容阅读
随着互联网的飞速发展,微博作为一种社交媒体已经获得了社会各界的广泛关注。但是如何从海量、不规则的微博数据中高效地提取出有效的信息来进行话题发现,仍然是目前亟待解决的问题。因此,使用主题模型挖掘微博数据的方法得以产生。目前,学者们已经对于主题模型进行了大量的研究,但现有的方法技术仍然存在一些不足,主要体现在:一是计算的复杂度太高,对于大数据级别的微博数据计算的效率不高;二是使用一些主题模型(比如传统的LDA模型)对微博这种短文把数据进行聚类后的准确度不高等。基于此,本文提出了一种融入改进的VSM模型和BTM主题模型和改进的适合微博数据的K-Means聚类方法的新浪微博数据挖掘方法,在保证计算微博数据效率的同时,提高微博数据挖掘的准确度。本文对VSM-BTM主题模型的微博数据挖掘方法进行了研究,研究内容主要分为微博数据的预处理、VSM-BTM建模、适合微博的聚类方法三个部分。其中,微博数据的预处理包括分词、去停用词、删除噪音数据等过程,并将预处理的结果以txt格式的文本保存,作为下一步主题建模的输入。在VSM-BTM建模过程中,首先使用现有的BTM主题模型进行建模,对数据预处理的结果进行不断地迭代,得到“文档-主题”矩阵和“主题-词语”矩阵,同时,利用BTM主题模型生成的词库表和微博数据转码结果,提出了一种使用JS距离和余弦距离相结合计算微博数据之间的相似度的方法。适合微博的聚类方法是使用适合微博数据的改进K-Means聚类方法对建模结果进行聚类分析,主要是通过利用现有微博数据选取合适的初始簇和计算距离的方法对传统的K-Means聚类算法进行了改进。最后采用准确率、召回率和F1值对实验结果进行分析评价。使用VSM-BTM主题模型进行建模的方法避免了微博数据稀疏性的缺陷,且不需要使用外部信息对微博数据进行扩充,降低了对文本以外信息的依赖性。通过实验,本文对单纯的LDA主题模型、单纯的BTM主题模型和本文提出的VSM-BTM主题模型的微博热点话题发现效果进行对比分析,以3个主题模型的准确率、召回率和F1值为对比分析的依据,发现本文提出的VSM-BTM主题模型在各个评价因素中都优于单纯的LDA主题模型和单纯的BTM主题模型的微博热点话题发现效果,从而证明了本文使用的主题模型对微博数据进行建模和聚类方法的有效性,在不增加计算复杂度的前提下,准确度优于现有的其他两种微博数据挖掘方法。