论文部分内容阅读
“社交媒体”迅速发展,成为用户分享和传播消息的重要途径,也成为研究和预测社会群智行为的重要平台。社交媒体海量信息的快速产生,新消息传播程度严重不均的情况日趋严重。如果可以提前预测社交媒体新消息发布后的传播程度,对舆情热点预估、内容趋势预测、动态定价策略等国家和行业领域都起到关键作用。所以,社交媒体流行度预测问题具有重要的研究意义和应用价值。社交媒体场景与传统网络平台不同,对流行度预测算法提出了动态性、即时性、实时性的新要求和目标。但是已有方法往往围绕用户属性、消息属性和分享行为等静态因素进行研究,忽视了时间信息对流行度预测的重要影响和作用。因此,本文研究了时间相关的流行度预测算法,从局部到序列、从隐式到显式递进地研究了动态流行度预测、特定时间流行度预测和时序流行度预测。不同于传统流行度预测算法,时间相关的预测面临如下挑战:时间信息对流行度的动态影响并非显式可见;特定时间的预测同时受到多尺度时间信息作用和噪音干扰、时间序列信息对预测的影响无特定模式。 面向时间相关流行度预测的重要问题和挑战,本文对时序学习的社交媒体流行度预测算法进行研究。具体来说,本论文主要的创新性贡献如下: 针对时间信息对流行度的动态影响并非显性可见,提出了动态矩阵因子化的社交媒体流行度预测算法 动态流行度预测中,存在时间相关动态因素对流行度隐式影响难以学习的挑战。因此,本文提出了动态矩阵因子化的社交媒体流行度预测算法,将时间信息作为与用户、消息动态因素相关的隐变量,构建隐含因子空间下的预测算法。该方法通过静态和动态因子化分解,能够互补地学习用户、消息对流行度的静态和动态影响;通过多时段矩阵分解,能够学习不同时段下用户和消息动态特征的非线性变化;通过多目标约束优化算法,能够在多个因子化重构过程中联合求解和优化流行度数值预测。经实验验证,我们的方法比已有最佳方法的预测相关性平均提高9.6%。 针对特定时间流行度同时受到多尺度时间信息作用和噪音数据干扰,提出了多尺度时间解析的社交媒体流行度预测算法 特定时间流行度预测中,独立时间信息对流行度受到多时间尺度作用和噪音干扰成为关键难点,因此,本文提出了多尺度时间解析的社交媒体流行度预测算法,将时间信息看作是独立显式变量,构建三维张量空间的预测算法。该方法基于行为关系和时间信息聚合的数据重排策略,避免行为上下文不相关带来的干扰;通过多时间尺度的微结构解析算法,有效估计待预测流行度受到的多尺度时间影响;通过联合低秩逼近优化算法,实现了动态流行度估计并能够降低噪音对数据预测的干扰。经大规模数据集上的实验验证,算法对特定时间的流行度预测效果比其他已有算法平均相对提高了10.9%-47.5%。结果表明,同时考虑多个时间尺度信息影响可以获得最佳的预测效果。 针对时间序列信息作用无特定模式,提出了深度时序上下文学习的社交媒体流行度预测算法 时序流行度预测中,时序信息对流行度影响并无特定模式可以捕捉。因此,本文提出了深度时序上下文学习的社交媒体流行度预测算法,进而将时间信息看作是显式的时序变量,构建时序信息空间下的预测算法。在时序表达阶段,该方法通过再表达和嵌入学习网络,将不同用户的时序行为数据进行统一表达;在时序学习阶段,通过两种上下文学习机制作用下的时序循环神经网络,有效学习连续和跳跃的上下文行为序列对流行度的影响;在时序预测阶段,通过层次化时序注意力机制,学习前序时序数据的时间信息在不同时间尺度下的层次化影响。经实验验证,我们的方法实现了更佳的预测性能,预测相关度达到0.6335,同时达到了最小的预测误差1.432,与已有最佳的深度预测算法相比平均增长了12.18%-27.57%。经实验验证,该算法可以进行时序预测,为时间相关预测目标提供了更完备的解决方案。