论文部分内容阅读
二十一世纪的今天,微博已经成为人们生活中不可以缺少的一部分,而且并以飞速的方式迅猛发展,其作为一种新型的可关注分享信息的社交媒体,具有发布快、形式多样、内容量少等特点正好迎合了用户对信息的实时、准确以及多样性的需求,因此广大用户对微博非常喜爱,主要由于用户可以通过微博在任何时间、地点分享或关注自己喜爱的事物。微博用户在使用微博时,根据其自己不同的兴趣爱好、生活习惯会选择关注不同的好友和浏览不同信息。因此,可以根据微博用户的兴趣爱好就可以了解其喜好与关注的信息。不同的微博用户有不同的喜好,如“物以类聚,人以群分”,故对于具有相同爱好的用户可为微博的推广营销以及好友推荐等提供新的切入点与研究思路。微博的数据量非常庞大,如何快速有效的从中挖掘出自己想要的数据信息显得非常重要。数据挖掘的方法可以在庞大的数据中挖掘出有价值的数据信息,该方法中所应用到的数学算法已经非常成熟,并在很多行业得到应用,如电信、金融以及网站等,然而在微博用户兴趣群发现上还存在很多问题需要解决。本文应用数学分析和挖掘的方法对微博数据进行处理,探索出微博用户的兴趣、爱好以及习惯,并通过该方法希望可以将数据挖掘的方法应用到微博挖掘的研究中,为微博数据的分析提供新的研究思路与借鉴途径。本文选取新浪微博为研究对象,对微博用户的兴趣群进行数据挖掘聚类分析。该过程中首先需要将微博数据进行可视化处理,这样可以清楚微博数据的分布特性,从而可以对微博数据进行预处理。由于本文所用新浪微博的数据量非常庞大,而且该数据中多数是不低于三维的数据,从而对微博进行直观评价显得较为复杂。本文采用k-means算法对新浪微博数据进行挖掘聚类分析,然而由于传统k-means算法对新浪数据进行挖掘聚类分析容易受初始聚类中心点的影响和对数据进行迭代求解过程中容易陷入局部最优。针对传统的k-means算法存在上述的缺陷,本文在k-means算法中引入粒子群(PSO)算法,改进后的PSO-kmeans算法由于PSO算法的引入使得该算法的变得较为简单,参数设置也变得较少,可以加速算法收敛速度,从而可以有效的解决粒子受初始聚类中心点的影响和跳出局部最优的束缚,提高聚类效果。最后,本文应用三种不同的度量指数对微博数据挖掘聚类分析的结果进行评价,评价的指数显示改进的PSO-kmeans算法的聚类结果比传统的k-means算法聚类结果更优异。