基于时序学习的社交媒体流行度预测算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“社交媒体”迅速发展,成为用户分享和传播消息的重要途径,也成为研究和预测社会群智行为的重要平台。社交媒体海量信息的快速产生,新消息传播程度严重不均的情况日趋严重。如果可以提前预测社交媒体新消息发布后的传播程度,对舆情热点预估、内容趋势预测、动态定价策略等国家和行业领域都起到关键作用。所以,社交媒体流行度预测问题具有重要的研究意义和应用价值。社交媒体场景与传统网络平台不同,对流行度预测算法提出了动态性、即时性、实时性的新要求和目标。但是已有方法往往围绕用户属性、消息属性和分享行为等静态因素进行研究,忽视了时间信息对流行度预测的重要影响和作用。因此,本文研究了时间相关的流行度预测算法,从局部到序列、从隐式到显式递进地研究了动态流行度预测、特定时间流行度预测和时序流行度预测。不同于传统流行度预测算法,时间相关的预测面临如下挑战:时间信息对流行度的动态影响并非显式可见;特定时间的预测同时受到多尺度时间信息作用和噪音干扰、时间序列信息对预测的影响无特定模式。  面向时间相关流行度预测的重要问题和挑战,本文对时序学习的社交媒体流行度预测算法进行研究。具体来说,本论文主要的创新性贡献如下:  针对时间信息对流行度的动态影响并非显性可见,提出了动态矩阵因子化的社交媒体流行度预测算法  动态流行度预测中,存在时间相关动态因素对流行度隐式影响难以学习的挑战。因此,本文提出了动态矩阵因子化的社交媒体流行度预测算法,将时间信息作为与用户、消息动态因素相关的隐变量,构建隐含因子空间下的预测算法。该方法通过静态和动态因子化分解,能够互补地学习用户、消息对流行度的静态和动态影响;通过多时段矩阵分解,能够学习不同时段下用户和消息动态特征的非线性变化;通过多目标约束优化算法,能够在多个因子化重构过程中联合求解和优化流行度数值预测。经实验验证,我们的方法比已有最佳方法的预测相关性平均提高9.6%。  针对特定时间流行度同时受到多尺度时间信息作用和噪音数据干扰,提出了多尺度时间解析的社交媒体流行度预测算法  特定时间流行度预测中,独立时间信息对流行度受到多时间尺度作用和噪音干扰成为关键难点,因此,本文提出了多尺度时间解析的社交媒体流行度预测算法,将时间信息看作是独立显式变量,构建三维张量空间的预测算法。该方法基于行为关系和时间信息聚合的数据重排策略,避免行为上下文不相关带来的干扰;通过多时间尺度的微结构解析算法,有效估计待预测流行度受到的多尺度时间影响;通过联合低秩逼近优化算法,实现了动态流行度估计并能够降低噪音对数据预测的干扰。经大规模数据集上的实验验证,算法对特定时间的流行度预测效果比其他已有算法平均相对提高了10.9%-47.5%。结果表明,同时考虑多个时间尺度信息影响可以获得最佳的预测效果。  针对时间序列信息作用无特定模式,提出了深度时序上下文学习的社交媒体流行度预测算法  时序流行度预测中,时序信息对流行度影响并无特定模式可以捕捉。因此,本文提出了深度时序上下文学习的社交媒体流行度预测算法,进而将时间信息看作是显式的时序变量,构建时序信息空间下的预测算法。在时序表达阶段,该方法通过再表达和嵌入学习网络,将不同用户的时序行为数据进行统一表达;在时序学习阶段,通过两种上下文学习机制作用下的时序循环神经网络,有效学习连续和跳跃的上下文行为序列对流行度的影响;在时序预测阶段,通过层次化时序注意力机制,学习前序时序数据的时间信息在不同时间尺度下的层次化影响。经实验验证,我们的方法实现了更佳的预测性能,预测相关度达到0.6335,同时达到了最小的预测误差1.432,与已有最佳的深度预测算法相比平均增长了12.18%-27.57%。经实验验证,该算法可以进行时序预测,为时间相关预测目标提供了更完备的解决方案。
其他文献
随着计算机的广泛使用和信息技术的飞速发展,计算机系统需要能够支持各种文字的显示和处理才能满足世界各地用户的需求。本文针对中国少数民族地区对于计算机系统能够支持民族
为更好地实现现有工作流系统在业务处理过程中对知识的利用和管理,本文将知识管理的知识获取、知识共享、知识学习、知识应用以及知识创新全过程融入工作流管理系统.通过流程
计算机系统的复杂性不仅使其分析与开发困难,而且同样使其管理面临挑战。为解决复杂系统管理面临的问题,具有一定程度智能性的自主管理系统正成为研究的热点。在自主管理系统
计算机辅助教学是一种新兴的教育技术,它被认为是人类教育史上继文字出现、学校创立、活字印刷之后的第四次教育革命。随着教育改革的发展和社会信息化的推进,要求大力推进和普
安全公务平台提供给用户的只有一个USB接口智能卡和一个普通网站,用户只要插上智能卡就能享受到公务平台提供的所有安全服务.公务平台采用中国电信CTCA作为证书的颁发和管理
随着GIS的广泛应用,GIS产生了大量的空间数据。然而不同的GIS往往产生不同格式的空间数据,这些格式并不兼容。而且空间数据往往存放在不同地点,形成分布数据,这使得空间数据
在数字信息技术和网络技术高速发展的今天,建立在其基础上的嵌入式系统已经得到了广泛的应用.而嵌入式Linux操作系统异军突起,成为了最有潜力的嵌入式操作系统.随着嵌入式系
纸币清分系统中纸币图像采集、分析和处理是核心技术.本论文主要围绕纸币图像采集、分析和处理涉及的软硬件设计与开发问题展开了深入的研究与讨论,提出了一套实验研究平台和
随着计算机及网络技术的快速发展,各企业单位开发了大量的软硬件平台各异的应用系统,在各种应用系统下又积累了丰富的数据资源,如数据库中的结构化数据、文件系统中的非结构化数
安全协议是建立在密码学基础上的网络协议,用于确保网络通信的安全可靠。近年来,随着网络需求的不断增长,安全协议的设计研究也逐步成为热点。但由于网络环境的复杂性,协议的