微博内容聚类及影响力传播分析——以上市公司新浪微博为例

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:lzflivecn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为现如今传播最广、渗透最深的富信息类社会化媒体与社交工具,让个人和企业都能够即时提出观点、发表意见。相比传统的信息获取渠道,如报纸或社会主流媒体,微博信息的准确性或有欠缺,但却能第一时间将信息传递给大众并形成传播。因此对微博内容进行数据挖掘可以获悉隐含的规律和有价值的信息。随着网络信息碎片化程度加剧,能否对微博类的短文本进行有效地聚类挖掘其背后的价值,是近年来一直被关注的问题。但是由于微博类短文本的特点,使用传统聚类算法对其分析不太适用。为此本文提出了针对微博的聚类方法,能够有效地对微博文本内容进行聚类,并且以此为基础,进行了影响力传播分析,挖掘出一些微博文本影响力相关的结论。  本文以上市公司新浪微博为例,设计并实现了爬虫程序,完成了数据的采集和基本处理。在微博文本聚类部分,本文分析并设计了微博文本向量化方法表示微博文本数据,并基于频繁词集进行降维处理,最后采用改进的 K均值聚类算法聚类并基于高频词集进行类簇表示。在影响力传播分析部分,本文研究了微博影响力的定义和微博的传播机制,然后提出了本文的微博影响力评估模型,最后实验证明本文提出的影响力评估模型是有效的。本文根据实验和结果分析得到以下结论:  (1)使用文本向量空间模型和改进的K均值算法对微博文本聚类是有效的,短文本聚类对文本特征集的选取有密切关系,本文通过设置不同阈值选取特征项对文本向量化,聚类并进行类簇对比,得到了较理想的类簇结果。  (2)基于H指数构建微博影响力评估模型在一定程度上可以度量影响力大小,但是模型结果会忽略微博的平均情况,向影响力较大的微博部分偏倚。基于微博信息和用户行为信息构建的影响力评估模型,能够很好的对单个微博影响力进行量化。通过实验结果,本文发现突发新闻类,视频直播类,银行、金融类,抽奖类微博具有较高的影响力。
其他文献
基于应用服务提供商(application service provider,ASP)的网络化制造模式使制造企业专注发展其核心业务,同时借助ASP提供的先进技术服务,快速响应市场需求,利用ASP服务商提
移动AdHoc网络——MANET(MobileAdHocNetworks)是一种具有广阔发展和应用前景的技术。由于MANET具有网络拓扑高度动态、多跳以及移动节点的资源和功能较为有限等特性,因此需要
随着网络应用的持续增加,以及相关业务的发展与延伸,产生并积累了大量的数据;与此同时,针对大数据的分布式计算框架不断出现并改进。根据应用场景,大数据的处理可以简单地分为两
现有的降雨预报系统采用人工经验判断与计算机辅助等手段给出降雨预测。通过经验给出的降雨预报准确度低,速度缓慢,而现有的自动预报系统则往往依据复杂的气象模型,在昂贵的计算
随着网络技术的发展和标准的制定,实时音频、视频的应用越来越广泛,这些应用反过来又促进了相关协议标准的发展。1996年IETF在RFC1889中定义了传输实时数据的Internet标准协
面向对象的技术给软件测试带来了新的挑战,与传统软件相比,面向对象软件的封装、继承、多态等特征虽然可以提高软件的开发效率,但是它们引起的类间依赖关系变得复杂,同时增加了软
在生产经营活动中,企业管理部门需要大量的决策行为。由于影响企业运作的环境因素复杂多变,所以要做出一个迅速和正确的决策是很困难的。作为智能体的Agent,其特性决定了其在决
随着网络的发展,通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:金融分析、网络监控、通讯数据管理、传感器网络数据处理等。在这些应用中数据是多维的、连
CLIPS是一种重要的专家系统开发工具,广泛应用于专家系统的各个研究领域。目前,以CLIPS为原型的各种版本的专家系统开发工具层出不穷,但是现有的开发工具都不具有直接支持并行处
信息检索和文本挖掘是近十几年快速发展的研究领域。传统上,给定一个用户的信息需求(Information Need)以及一个待检索的文档集和,信息检索研究如何找到一些合适的文档来满足用