基于VSM-BTM主题模型的微博热点话题发现研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:ming2331
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,微博作为一种社交媒体已经获得了社会各界的广泛关注。但是如何从海量、不规则的微博数据中高效地提取出有效的信息来进行话题发现,仍然是目前亟待解决的问题。因此,使用主题模型挖掘微博数据的方法得以产生。目前,学者们已经对于主题模型进行了大量的研究,但现有的方法技术仍然存在一些不足,主要体现在:一是计算的复杂度太高,对于大数据级别的微博数据计算的效率不高;二是使用一些主题模型(比如传统的LDA模型)对微博这种短文把数据进行聚类后的准确度不高等。基于此,本文提出了一种融入改进的VSM模型和BTM主题模型和改进的适合微博数据的K-Means聚类方法的新浪微博数据挖掘方法,在保证计算微博数据效率的同时,提高微博数据挖掘的准确度。本文对VSM-BTM主题模型的微博数据挖掘方法进行了研究,研究内容主要分为微博数据的预处理、VSM-BTM建模、适合微博的聚类方法三个部分。其中,微博数据的预处理包括分词、去停用词、删除噪音数据等过程,并将预处理的结果以txt格式的文本保存,作为下一步主题建模的输入。在VSM-BTM建模过程中,首先使用现有的BTM主题模型进行建模,对数据预处理的结果进行不断地迭代,得到“文档-主题”矩阵和“主题-词语”矩阵,同时,利用BTM主题模型生成的词库表和微博数据转码结果,提出了一种使用JS距离和余弦距离相结合计算微博数据之间的相似度的方法。适合微博的聚类方法是使用适合微博数据的改进K-Means聚类方法对建模结果进行聚类分析,主要是通过利用现有微博数据选取合适的初始簇和计算距离的方法对传统的K-Means聚类算法进行了改进。最后采用准确率、召回率和F1值对实验结果进行分析评价。使用VSM-BTM主题模型进行建模的方法避免了微博数据稀疏性的缺陷,且不需要使用外部信息对微博数据进行扩充,降低了对文本以外信息的依赖性。通过实验,本文对单纯的LDA主题模型、单纯的BTM主题模型和本文提出的VSM-BTM主题模型的微博热点话题发现效果进行对比分析,以3个主题模型的准确率、召回率和F1值为对比分析的依据,发现本文提出的VSM-BTM主题模型在各个评价因素中都优于单纯的LDA主题模型和单纯的BTM主题模型的微博热点话题发现效果,从而证明了本文使用的主题模型对微博数据进行建模和聚类方法的有效性,在不增加计算复杂度的前提下,准确度优于现有的其他两种微博数据挖掘方法。
其他文献
图像的超分辨率重建技术在临床医学诊断、公共安全监控、卫星遥感等众多领域有着广泛应用前景,它可以有效地解决从硬件上改善成像设备分辨率提高的限制,进一步改善由于图像降
随着多媒体技术、计算机网络和通信技术的迅猛发展,数字产品的应用越来越广泛,数字信息的安全逐渐成为人们关心的问题,其中数字产品的版权保护最为重要。数字水印作为数字信息安
随着通信技术的发展,移动用户在漫游过程中也可以通过异地服务器获取服务。因此,如何保障移动漫游用户在通信过程中的隐私性与安全性变得至关重要。而基于移动网络的用户匿名
在我国,中压配电网大多采用的是中性点非有效接地的方式也就是小电流接地方式。由于接地电流微弱,加上中压配电网接线复杂,分支众多,其单相接地故障类型的辨识成为一直以来尚未得到很好解决的难题。在小电流接地运行方式下发生单相接地故障时,故障相与非故障相的对地电压分别降低和升高导致系统相电压变得不对称,但线电压依然对称,所以系统虽存在故障但是仍能运行1~2小时,不过如果此故障持续长时间,就可能会引起PT爆炸
Cache是缓解处理器和内存速度差异的一种非常有效的方法,但是随着工艺技术及处理器技术的飞速发展,传统的以SRAM为材料的Cache受到了面积、功耗等的限制。STT-RAM是一种新型
近年来即时通信技术的飞速发展使即时通信工具的应用更为广泛,给个人的网络生活、企业的日常办公都带来了极大的便利性与高效性。XMPP(eXtensible Messaging and Presence Pr
云计算作为一种新的计算模式,其采用了“pay-as-you-go”的管理模式,面向网络用户随时、随地的提供按需的服务器资源,而用户则不必关心硬件维护和网络管理工作。云服务模式给VoD
光学信息处理具有容量大、速度快、并行性等优点,秘密信息可以被隐藏在相位或空间频率等多种参数中,因此利用光学信息处理对数字图像进行加密是一种行之有效的方法。Gyrator变
现代动态语言运行于专门的虚拟机软件上,虚拟机用来管理内存,实现高级特性。每种语言需要针对不同平台提供其虚拟机实现。这些虚拟机由于效率原因通常由低层级的语言来编写。这
在“厂网分开、竞价上网”的大背景下,电厂竞价上网数据直接关系发电调度计划的制定,进而影响电厂的经济利益,绝对不能泄露给竞争对手。另外,发电调度计划不仅用于指导各个电厂进