论文部分内容阅读
聚类算法一直是数据挖掘中的重要手段,但是在数据量激增的大数据时代,传统单机执行的聚类算法无法满足人们对数据的实时处理需要,如何将聚类算法在分布式集群环境下实现成为当前研究热点。聚类算法中K-means算法因其简单高效得到广泛应用,但该算法存在初始聚类中心随机选取和聚类个数依靠主观经验选定的缺点,而这两点也是其改进优化的关键点。本文着重研究K-means算法在分布式集群上的实现,并针对其缺点进行优化改进,使算法的准确率和效率得到提升。为了对K-means算法的缺点进行改进,本文实现了分布式Canopy-Kmeans聚类算法。该算法通过Canopy算法粗聚类获得K-means算法的初始聚类中心和K值,减少了K-means算法的迭代次数,实验证明该算法有效减少了运算时间。同时,针对Canopy-kmeans算法的参数主要依靠多次试验获取,具有一定的盲目性,提出了改进的基于哈希的K-means算法,算法采用最大最小距离策略优化原始算法,使选取出的初始聚类中心更加接近真实的聚类中心,实验结果表明该算法的准确率和效率要优于其它算法。最后,针对民航客票代理人在航空产业中占据越来越重要的地位,但是对其研究却少之又少的情况。本文将两种算法应用于真实的民航客票代理人的数据分析,实验证明算法有效可行,具有实际利用价值,可以为航空公司对代理人的管理、销售方案的制定提供了依据与帮助。