基于k-means算法在微博数据挖掘中的应用

来源 :天津工业大学 | 被引量 : 5次 | 上传用户:qqqwe12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪的今天,微博已经成为人们生活中不可以缺少的一部分,而且并以飞速的方式迅猛发展,其作为一种新型的可关注分享信息的社交媒体,具有发布快、形式多样、内容量少等特点正好迎合了用户对信息的实时、准确以及多样性的需求,因此广大用户对微博非常喜爱,主要由于用户可以通过微博在任何时间、地点分享或关注自己喜爱的事物。微博用户在使用微博时,根据其自己不同的兴趣爱好、生活习惯会选择关注不同的好友和浏览不同信息。因此,可以根据微博用户的兴趣爱好就可以了解其喜好与关注的信息。不同的微博用户有不同的喜好,如“物以类聚,人以群分”,故对于具有相同爱好的用户可为微博的推广营销以及好友推荐等提供新的切入点与研究思路。微博的数据量非常庞大,如何快速有效的从中挖掘出自己想要的数据信息显得非常重要。数据挖掘的方法可以在庞大的数据中挖掘出有价值的数据信息,该方法中所应用到的数学算法已经非常成熟,并在很多行业得到应用,如电信、金融以及网站等,然而在微博用户兴趣群发现上还存在很多问题需要解决。本文应用数学分析和挖掘的方法对微博数据进行处理,探索出微博用户的兴趣、爱好以及习惯,并通过该方法希望可以将数据挖掘的方法应用到微博挖掘的研究中,为微博数据的分析提供新的研究思路与借鉴途径。本文选取新浪微博为研究对象,对微博用户的兴趣群进行数据挖掘聚类分析。该过程中首先需要将微博数据进行可视化处理,这样可以清楚微博数据的分布特性,从而可以对微博数据进行预处理。由于本文所用新浪微博的数据量非常庞大,而且该数据中多数是不低于三维的数据,从而对微博进行直观评价显得较为复杂。本文采用k-means算法对新浪微博数据进行挖掘聚类分析,然而由于传统k-means算法对新浪数据进行挖掘聚类分析容易受初始聚类中心点的影响和对数据进行迭代求解过程中容易陷入局部最优。针对传统的k-means算法存在上述的缺陷,本文在k-means算法中引入粒子群(PSO)算法,改进后的PSO-kmeans算法由于PSO算法的引入使得该算法的变得较为简单,参数设置也变得较少,可以加速算法收敛速度,从而可以有效的解决粒子受初始聚类中心点的影响和跳出局部最优的束缚,提高聚类效果。最后,本文应用三种不同的度量指数对微博数据挖掘聚类分析的结果进行评价,评价的指数显示改进的PSO-kmeans算法的聚类结果比传统的k-means算法聚类结果更优异。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着银行业竞争日趋激烈和顾客需求的多样化,各银行对基层员工主动行为的要求不断增加。企业开始通过实施各种人力资源管理实践,提高员工的主动行为。但是,由于主动行为本身
我们所处的时代是一个知识协同创新的时代,建设创新型国家是当代中国的重要国策。在这种全新的大背景下,国家创新系统竞争力的基础架构发生了根本改变,从有形资源的密集性消
在传统项目管理模式中 ,项目投资控制在开发管理、项目管理和物业管理三个阶段相互独立 ,导致许多弊端。建设项目全寿命周期集成投资控制是解决这一问题的有效途径。探讨了在
过程化考核模式作为一种综合全面的新型考核模式正逐渐被引入课程的考核环节。文章在软件项目管理与案例分析过程化考核改革成果的基础上,提出"阶段性多元化过程化考核模式"在
通过潍坊科技学院6年来在数学建模辅导和各种活动方面的探索,阐述数学建模活动在组织和培训方面的一些心得体会,通过数学建模活动可以培养学生的一系列能力,说明数学建模活动在
在市场调查中,定性研究方法越来越受到研究者的重视,以至于定性方法在实际应用中作用越来越大.目前,市场调查中所使用的定性研究方法很多,而且有些方法现在已经很成熟,但由于
井盖在社会基础设施建设中充当了不可或缺的角色。从井盖的定义出发,结合国家对于井盖的相关技术要求,介绍了井盖的概念、分类、功能、发展历史、现状及未来发展方向,并剖析
从英汉对比的角度,研究time(s)和"次"的英汉动量结构语法化程度,并围绕语法化程度,研究了表量结构的语法化路径、语法化机制、认知解释等。从语义转变、结构转变研究英汉表量
不等式在中学数学学习中占有重要地位,在高考中也有所考查,本文利用转化、数形结合思想,以构造向量、构造几何图形为载体证明不等式.