新浪微博用户行为分析及预测

来源 :山西师范大学 | 被引量 : 3次 | 上传用户:lu_bo_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线社交网络已成为信息时代人们沟通和交流的一个主要平台,微博在社交网络中占有重要的地位,已经成为社交网络中重要的媒体之一。新浪微博作为国内最大微博平台,对新浪微博用户在线行为分析及预测,直接的支撑着社会舆论导向,企业微博营销活动,因此微博用户行为的研究为企业和政府部门的决策提供了重要参考。为此主要完成了以下工作:首先,分析了中文文本特征词提取的理论和方法,包括切词问题、主干词的提取、权值的设置、特征词的理论和DF、MI、CHI、TFIDF、信息增益方法;研究了文本分类算法模型和不足,包括KNN算法、类中心向量算法、贝叶斯算法、逻辑回归算法。其次,从微博训练集整体角度进行了统计分析,得到没有用户行为的微博与具有用户行为的微博比例因子,具有完整用户行为的微博数与具有用户行为的微博数比例因子;用户行为与微博数量关系符合幂律分布;同一个用户行为符合“点赞>评价>转发”的规律;用户转发、评价及点赞行为都具有较高的聚类系数和较小的平均距离,每个用户的每种用户行为都存在一个中心点。依据微博的特点使用模糊集与信息增益算法相结合抽取不同用户行为的特征词;根据每个用户创建微博的时间进行了聚类分析,得到了每个用户撰写微博的时间与微博用户行为之间的关系。最后,把类中心向量算法与模糊集相结合,形成了新的类中心向量算法;针对传统的KNN算法K值的不易确定性,使用类别集合代替传统的求距离的方法对KNN进行了改进,并与新类中心向量算法相结合,实现了用户行为的预测。
其他文献
虚拟样机技术降低了产品开发的成本,提高了产品开发的效率,在各行各业得到了广泛的应用。但虚拟样机开发本身所具有的复杂性制约了虚拟样机技术的发展,研发具有易用性和高效性的
学位
随着我国铁路运输的快速发展和高速、重载铁路的运行,传统的轨道车管理办法已越来越不能适应这种发展形势。运用计算机辅助决策轨道车管理是提高工作效率、科学配置资源的有
随着时代和技术的发展,SOA以其松散耦合性、高度可集成性、数据信息规范性和数据可复用性等特点备受人们的青睐。Web服务(Web Service)是实现SOA的方式之一,它以XML、WSDL、S
随着互联网的大规模普及和企业信息化程度的提高,文本信息快速积累,人们迫切需要研究出方便有效的工具从大规模文本信息中提取符合需要的简洁、精炼、可理解的知识,文本挖掘
盲源分离问题即在不知道源信号和传输通道的先验信息的情况下,根据源信号的统计特性,仅由观测到的混合信号恢复出源信号的过程。盲源分离应用领域非常广阔,目前已广泛应用于语音
半调图像被广泛用于连续色调图像的打印、印刷和显示,为节约图像存储容量和传输时间,以实现快速传输和实时处理,就要减少表示图像的数据量,并且要求解码图像有较好的质量。因
可否认认证作为一种密码学原语,其非公开可验证性使其具有广泛的应用前景;群密钥协商协议作为典型的多方计算协议,面临着一系列的安全性问题,如合谋攻击等。将可否认认证引到
当前软件系统开发一般基于一些高级专业编程语言,由专业程序员进行需求调研,系统设计及代码编写,系统测试等,开发工作大多由计算机专业编程人员完成。不仅开发成本高,而且有
在当前计算机应用深入社会生活的各个角落的背景下,软件开发行业正在从小规模的实用式开发向大规模产业链发展。在这个进程中产生了很多对软件产业未来发展方向的指导思想,这
移动设备近年来迎来了蓬勃发展,成为用户接入互联网的主要入口平台。得益于移动设备的普及以及集成众多传感器的特性,众多功能丰富的移动应用被开发出来,并聚集了大量高价值