论文部分内容阅读
以用户为创造者和传播者的社交网络已成为人们现代生活中必不可少的一部分。用户的大量新鲜想法、好友关系都潜藏在社交网络中,使得社交网络成为大数据的一个重要来源。数据挖掘的一个最重要的应用就是分析数据之间隐含的关系,并为将来所用。在社交网络中,用户有限的时间和精力决定了用户只会去关注他们感兴趣的和热门的事物。因此,及时地预测社交网络中什么是热门的内容不仅能帮助用户最大化他们的时间和精力,还能够帮助社交网站为用户提供更人性化的服务。因此,本论文将研究社交网络中内容的热门预测,包括预测的内容分类、方法总结和模型评估。近年来,对于社交网络中的内容预测中较多关注的是话题或事件的预测,对于单条动态的热门程度预测才刚刚起步。因此本文将深入探讨如何预测单条动态的流行程度,并推出一个借鉴经济学领域的、基于时间和空间异质性的巴斯模型,来实现预测。该模型只需要一条动态发布后一天内的信息,就可以预测这条动态以点赞数和转发量衡量的未来走势,并且进一步判定这条动态将来是否会热门。本文在真实的推特数据集上进行了扩展性实验来验证时空异质性巴斯模型的有效性和精确率。实验结果证明,该模型在预测单条动态走势时有更小的绝对比例误差,在预测动态是否热门时查准率也比对照模型平均高24%,因此说明本文推出的基于事件和空间异质性的巴斯模型对于单条动态的热门程度预测效果显著。