论文部分内容阅读
社交网络在人们生活中扮演着非常重要的角色。基于社交网络信息传播规律进行热度预测,有助于用户掌握网络舆情的宏观态势,指导网络信息的发布和效果评价。当前已经有很学者致力于发现信息扩散规律,在信息传播领域也有很多重要成果。然而,许多研究主要集中在单条信息是如何在网络中传播,对于多元信息传播分析中关于相互竞争干扰扩散传播模型的研究还处于初级阶段,相关研究工作不多。本文重点研究多元话题传播规律,通过在传统SH模型中引入话题相关矩阵和用户与类别相关矩阵,提出了一种面向多信息竞争复杂舆情环境的话题热度预测模型,客观地反映了实际网络中的信息传播规律。当前已经有部分传播模型考虑到多条信息同时在网络中传播,但是,他们往往忽略用户和信息之间的关系。同时,以往大多数研究使用隐含特征建模,导致很难结合现实,对信息传播中的规律进行解释。本文使用探针用户的方法,加入用户与信息相互作用矩阵,使预测单个用户转发任务的准确率以及召回率得到提升。传统的热度预测模型通常分为两种;使用单条信息的早期热度,发布时间等特征进行建模;对单条信息每个时段的热度,使用时间序列模型建模预测。这两种方法的通病是,没有考虑到多条新闻信息的相互影响,因此效果没有很好。本文主要工作主要包括以下几个方面:1.现有算法均不考虑转发者与转发源的社交关联的紧密程度,而这恰恰是影响传播范围的重要因素。在传统预测模型SH模型提出的强相关特征基础上,加入信息发布早期时间强连接用户比例特征。2.现有算法多数使用线性回归等单一模型,模型或过于简单,或易发生过拟合。本文使用多模型栈式(Stacking)与组合(Bagging)提高精度的同时,避免过拟合现象的发生。3.在预测模型基础上加入类别之间的相互作用关系,同时也加入用户与类别相互作用关系,最终得到反应类别之间相互作用关系矩阵,不仅在一定程度上解释信息传播的规律,并有效的改进了预测结果。本文在腾讯新闻数据集上实验,实验结果表明,相较于传统的热度预测模型SH模型,平方损失误差降低35%,平均相对百分误差下降30%。