基于微博大数据的群体行为分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dolan525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展,人们能够通过智能手机等轻便设备上的APP接入到互联网从而获取和发布信息,微博作为一种社交媒介,其易于使用、开放互动的特点迅速积累了众多用户。新浪微博作为国内主流的社交平台吸引了众多用户的参与,随着一次次微博热点事件的引爆,微博在用户中具备了颇高的人气,伴随微博的发展而产生的海量数据为科研和商业带来了巨大发展潜力,微博成为各学科领域科研数据获取的重要途径,其提供的用户信息数据与文本内容数据能够被用于众多学科和领域的研究。  微博用户作为参与微博社交网络的主要参与者,如何对用户进行客观评价和量化分析,催发了众多研究成果如对用户在微博社交网络中的活跃程度,对用户在微博社交网络中的影响力进行评价和排序,分析用户的可信度及其微博言论的可信程度都是十分有价值的研究方向。本文以新浪微博作为群体行为分析的平台,使用大数据分析技术中常用的思路和方法对新浪微博的用户群体行为进行研究,对用户的评价指标进行整理,提出能够刻画用户脱离社交网络的新指标用户融入度,并改进机器学习方法在用户指标评价中的使用方式,主要完成以下研究内容:  研究如何从新浪微博获取用户信息数据和微博内容数据。以新浪微博所公开发布的数据集为基础,以爬虫手段为辅助工具相结合来获取数据。使用scrapy框架来设计爬虫,使用scrapy-redis组件来改进爬虫的性能,介绍了爬虫设计中需要考虑的诸多问题并实现了用户数据优先的采集方法。  总结针对微博用户的评价方法,提出微博用户融入度并使用机器学习方法来构建用户融入度模型。针对用户评价指标定义较为模糊,重新梳理了用户活跃度、用户影响力和用户可信度三个用户评价指标,总结了基于权重的评价方法、基于PageRank的评价方法和基于机器学习的评价方法,在不同的特征集下使用机器学习方法构建用户融入度模型;在时间维度,使用长短期神经网络来对多时间序列进行预测,在空间维度,探索空间数据可视化方法。  本文创新点是在基于scrapy框架的爬虫中实现了用户优先的数据抓取方法;首次横向整理了微博用户评价指标,并提出了用户融入度指标来刻画用户脱离微博社交网络的风险,从预测风险角度使用机器学习方法构建用户融入度模型;从时间维度出发,使用长短期神经网络LSTM构建用户群体行为的多时间序列预测模型;面向未来,探索空间数据可视化方法。
其他文献
数据仓库的出现和发展是计算机应用发展到一定阶段的必然产物。其权威的定义是:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”
在计算机技术日渐普及的今天,各单位都迫切需要一套能够实现其业务流程自动化的办公系统,工作流技术就是近年来许多开发人员和用户关注的一种办公系统开发技术。将工作流技术融
本文在概述了数据挖掘基本原理的基础上,首先介绍了Web挖掘的基本概念、分类和面临的挑战,然后重点讨论了Web日志挖掘,即通过用户对站点的使用情况分析有价值的信息.介绍了We
长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。FP-growth算法是一种基于模式增长的频繁模式挖
获取真实物体的三维模型在虚拟现实、CAD反向工程、模式识别、不良产品检测以及人体非接触测量等领域应用非常广泛.本文通过对多视点深度图像配准算法和三维曲面重建理论进行
出租车寻呼系统由手持端、车载端和调度中心三部分组成.手持端定位在实现了GPS全球定位系统功能的手机上;车载端是一个实现了接受GPS定位功能、GSM短消息收发功能和嵌入式电
随着视频编码及其应用的发展,高效的视频编码和实时通讯技术显得越来越重要。H.264是目前最新的视频编码标准。与现有的视频编码标准H.261、H.263和MPEG-1、MPEG-2、MPEG-4相
软件测试在软件生存期中占有十分重要的位置,是软件质量保证的重要手段。当一个软件开发完成后,能否实际地投入运行并准确无误地完成任务,软件的质量是关键。针对如何确保软
近十年来,数据挖掘逐渐成为数据库和人工智能等研究领域的一个热点。聚类(clustering)是数据挖掘中重要的研究课题之一。通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分
TCP/IP网络的带宽动态、网络异构,以及尽力传输服务模式等,给流视频服务带来了很大的困难。可伸缩编码视频能够根据网络带宽的变化提供可变的比特率,编码具有一定的网络带宽