论文部分内容阅读
近几年,新浪微博已经从流行转变到主流再转变到家喻户晓,它改变着我们线上线下的生活方式,甚至取代传统媒体成为我们发布和获取信息的主要渠道。虽然微博信息是碎片化的、零散的,但当大量的微博在讨论同一个话题时,这些零散的信息碎片就能聚合起来,迅速传播话题信息,让话题成为焦点,从而产生了一种新型的话语权。由于新浪微博的流行,以及热门话题的影响力,对微博话题未来流行趋势预测蕴含着巨大商机,成为市场营销和社会舆情监督的重要课题。目前对微博话题的预测研究主要基于信息流的时间序列、意见领袖的参与度和微博网络拓扑结构。本文基于上述研究成果对话题流行度的影响因素进行了总结,提出一种将预测看作是对话题多元特征分类的方法,对微博话题流行趋势进行预测。本文利用五种最常用的分类模型(朴素贝叶斯、k-最近邻,决策树,逻辑斯蒂回归和支持向量机)来做预测,故研究的主要任务是用有效的特征向量来描述微博话题。本文首先对新浪微博热门话题的影响因素进行分析,对热门微博传播路径可视化后发现微博早期流行度,用户影响力和话题自带属性是推动话题流行的重要因素。根据这些影响因素分别从早期传播动态、用户影响力和话题内容三个方面抽取特征,构造了三个相互补充的特征子集。本文基于新浪微博平台采集了2166个话题,近162.5万条微博数据,对预测模型进行试验分析。结果显示,利用分类模型输入特征集合进行预测的结果比输入特征子集的结果要更准确。在五种分类模型中,决策树C4.5的F度量结果要优于其他四个分类模型。论文首先介绍了新浪微博的迅猛发展和受欢迎的原因,并对国内外相关研究的成果和方向做了述评;第二章介绍了微博的相关理论和分类预测技术;第三章主要论述了影响微博话题流行度的因素;在第四章中对微博相关概念做了形式化定义,详细的给出了特征向量的计算方法,提出了新浪微博话题热度预测模型的框架和流程;第五章主要对论文提出的模型做验证,并详细介绍了新浪微博数据爬取和预处理的具体流程。在最后一章,对论文的主要工作和创新点进行了总结,并提出研究的改进方向。