论文部分内容阅读
随着移动互联网的迅猛发展,人们能够通过智能手机等轻便设备上的APP接入到互联网从而获取和发布信息,微博作为一种社交媒介,其易于使用、开放互动的特点迅速积累了众多用户。新浪微博作为国内主流的社交平台吸引了众多用户的参与,随着一次次微博热点事件的引爆,微博在用户中具备了颇高的人气,伴随微博的发展而产生的海量数据为科研和商业带来了巨大发展潜力,微博成为各学科领域科研数据获取的重要途径,其提供的用户信息数据与文本内容数据能够被用于众多学科和领域的研究。 微博用户作为参与微博社交网络的主要参与者,如何对用户进行客观评价和量化分析,催发了众多研究成果如对用户在微博社交网络中的活跃程度,对用户在微博社交网络中的影响力进行评价和排序,分析用户的可信度及其微博言论的可信程度都是十分有价值的研究方向。本文以新浪微博作为群体行为分析的平台,使用大数据分析技术中常用的思路和方法对新浪微博的用户群体行为进行研究,对用户的评价指标进行整理,提出能够刻画用户脱离社交网络的新指标用户融入度,并改进机器学习方法在用户指标评价中的使用方式,主要完成以下研究内容: 研究如何从新浪微博获取用户信息数据和微博内容数据。以新浪微博所公开发布的数据集为基础,以爬虫手段为辅助工具相结合来获取数据。使用scrapy框架来设计爬虫,使用scrapy-redis组件来改进爬虫的性能,介绍了爬虫设计中需要考虑的诸多问题并实现了用户数据优先的采集方法。 总结针对微博用户的评价方法,提出微博用户融入度并使用机器学习方法来构建用户融入度模型。针对用户评价指标定义较为模糊,重新梳理了用户活跃度、用户影响力和用户可信度三个用户评价指标,总结了基于权重的评价方法、基于PageRank的评价方法和基于机器学习的评价方法,在不同的特征集下使用机器学习方法构建用户融入度模型;在时间维度,使用长短期神经网络来对多时间序列进行预测,在空间维度,探索空间数据可视化方法。 本文创新点是在基于scrapy框架的爬虫中实现了用户优先的数据抓取方法;首次横向整理了微博用户评价指标,并提出了用户融入度指标来刻画用户脱离微博社交网络的风险,从预测风险角度使用机器学习方法构建用户融入度模型;从时间维度出发,使用长短期神经网络LSTM构建用户群体行为的多时间序列预测模型;面向未来,探索空间数据可视化方法。