论文部分内容阅读
随着互联飞速的发展,手持终端的普及以及社交平台的推广,信息的传播方式发生了本质的变化。微博作为一个开放的平台,用户之间的关注不需要认证,信息传播具有速度快、范围广的特点。如何有效的预测信息的传播成为亟待解决的难题。目前基于网络社交平台的信息传播模型的研究,主要集中在社交网络结构和信息内容对信息传播的影响这两方面。而针对个体特征和新用户对信息传播的影响研究不够深入。针对微博平台,微博的转发是信息传播的基础。本文重点研究用户对微博的转发会受到哪些个体特征的影响,如何通过这些特征有效的预测用户的转发行为,然后对于历史信息不足的用户,提出通过相邻好友预测微博转发行为的方案。首先本文将微博的转发行为看作是发送者、接收者、微博这三个实体间的相互作用。提取用户特征的时候先考虑每个实体的特征,然后考虑两两实体间关系的特征,本文共提取了11个特征。其中发送者权威特征是通过PageRank算法衡量的,该特征反映了发送者在网络中的位置特征。对于兴趣相似特征,首先使用LDA模型对用户的历史微博信息进行建模,得出用户微博的主题分布,然后使用改进后的KL算法度量两个用户兴趣的相似度。对提取后的特征进行归一化处理,使用SVM算法进行微博转发的预测,同时本文还考虑了非平衡数据集对SVM算法的影响。使用基于SVM的过采样方法优化数据集,可以提高预测效果。同时本文还构建了好友选取模型,对于缺乏历史信息的用户,通过好友选取模型从相邻的好友中选择一位亲密好友作为参考好友,来预测微博的转发行为。该模型选择好友的原则是:对于相同的微博,转发行为越相似,则越有资格作为参考好友。本文提出的方法使用新浪微博的真实数据集进行验证,并和常用的逻辑回归算法和朴素贝叶斯算法进行了对比。实验结果显示本文提出的方法有效的提高了预测结果的准确性,并且对缺少历史信息的新用户,当其他算法都失效时,本文提出的算法依然有不错的效果。