论文部分内容阅读
随着社交网络和智能终端的快速普及,人们通过社交网络不仅了解到世界各地的新闻事件,也对当下热门的话题和事件发表自己的看法和观点。收集和研究这些意见和观点可以为了解社会趋势和舆论导向提供一个有效的窗口和视角。而基于社交网络的事件预测便是通过对社交网络中大量的用户生成内容进行分析,预测事件的发展趋势和舆论的导向,从而为决策制定和社会管理提供一定的帮助和支持。但是由于社交网络的动态变化的特性,事件和热门话题也在不断变化,导致事件预测效果不佳。同时由于智能设备的普及,在社交网络中人们可以不仅通过文字信息进行分享和交流,也发表图片、视频等多媒体信息,使得社交网络包含多种不同类型的数据。通过对社交网络中的用户生成内容的分析和挖掘,可以预测事件背后的舆论导向并推断用户的地理位置。
社交网络的动态特性导致现有的静态预测模型难以分析新事件带来的变化,但对新数据的标注需要人力和时间的投入,使得现有方法难以将新的数据引入模型的学习过程中,导致预测效果下降。而社交网络数据类型的多样性,内容的不规则性使得基于单一类型信息的地理位置推断模型的稳定性和准确性都难以保证。本文针对以上两个问题展开研究,主要工作和贡献如下:
1.提出带反馈机制的事件预测方法。该方法为解决事件特征的不断变化导致静态模型的事件预测性能下降的问题,引入新事件检测和反馈机制,来提高事件预测的性能。利用多种离群值检测方法给出新数据的变化程度即重要性衡量,并将三种方法通过概率映射进行融合给出新事件的重要性评估,并将重要的新事件提供给分析人员,标注后反馈给训练过程,提升模型性能。本文使用两个大选事件的推文数据集,通过推文内容和相关新闻链接,手动筛选和标注了近千条事件用于实验,并与实际选举结果对比展示标注的正确性。基于两个实际数据集进行了一系列的对比实验和模型参数的测试,验证了该方法的有效性。
2.提出多模态地理位置推断方法。该方法为解决单模态信息缺失和噪声过大的问题,构建了一个端到端的多模态地理位置推断模型,同时利用社交网络中的文本和图像信息。针对社交网络图片纷繁复杂,内容多样的特点,利用图像分割和识别技术,过滤噪声图片提升数据质量和训练模型的鲁棒性。利用深度学习中的卷积网络分析文本和图像内容,提取多模态特征以推断用户可能的发帖位置。不同于现有研究,本方法主要考虑在某一城市中,更加精确的细粒度地理位置推断。利用从Instagram上采集的真实数据集,展现了本文提出方法在正确性,平均距离误差和准确性方面都优于其他方法。
社交网络的动态特性导致现有的静态预测模型难以分析新事件带来的变化,但对新数据的标注需要人力和时间的投入,使得现有方法难以将新的数据引入模型的学习过程中,导致预测效果下降。而社交网络数据类型的多样性,内容的不规则性使得基于单一类型信息的地理位置推断模型的稳定性和准确性都难以保证。本文针对以上两个问题展开研究,主要工作和贡献如下:
1.提出带反馈机制的事件预测方法。该方法为解决事件特征的不断变化导致静态模型的事件预测性能下降的问题,引入新事件检测和反馈机制,来提高事件预测的性能。利用多种离群值检测方法给出新数据的变化程度即重要性衡量,并将三种方法通过概率映射进行融合给出新事件的重要性评估,并将重要的新事件提供给分析人员,标注后反馈给训练过程,提升模型性能。本文使用两个大选事件的推文数据集,通过推文内容和相关新闻链接,手动筛选和标注了近千条事件用于实验,并与实际选举结果对比展示标注的正确性。基于两个实际数据集进行了一系列的对比实验和模型参数的测试,验证了该方法的有效性。
2.提出多模态地理位置推断方法。该方法为解决单模态信息缺失和噪声过大的问题,构建了一个端到端的多模态地理位置推断模型,同时利用社交网络中的文本和图像信息。针对社交网络图片纷繁复杂,内容多样的特点,利用图像分割和识别技术,过滤噪声图片提升数据质量和训练模型的鲁棒性。利用深度学习中的卷积网络分析文本和图像内容,提取多模态特征以推断用户可能的发帖位置。不同于现有研究,本方法主要考虑在某一城市中,更加精确的细粒度地理位置推断。利用从Instagram上采集的真实数据集,展现了本文提出方法在正确性,平均距离误差和准确性方面都优于其他方法。