MapReduce聚类方法的研究与应用

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:rsilent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法一直是数据挖掘中的重要手段,但是在数据量激增的大数据时代,传统单机执行的聚类算法无法满足人们对数据的实时处理需要,如何将聚类算法在分布式集群环境下实现成为当前研究热点。聚类算法中K-means算法因其简单高效得到广泛应用,但该算法存在初始聚类中心随机选取和聚类个数依靠主观经验选定的缺点,而这两点也是其改进优化的关键点。本文着重研究K-means算法在分布式集群上的实现,并针对其缺点进行优化改进,使算法的准确率和效率得到提升。为了对K-means算法的缺点进行改进,本文实现了分布式Canopy-Kmeans聚类算法。该算法通过Canopy算法粗聚类获得K-means算法的初始聚类中心和K值,减少了K-means算法的迭代次数,实验证明该算法有效减少了运算时间。同时,针对Canopy-kmeans算法的参数主要依靠多次试验获取,具有一定的盲目性,提出了改进的基于哈希的K-means算法,算法采用最大最小距离策略优化原始算法,使选取出的初始聚类中心更加接近真实的聚类中心,实验结果表明该算法的准确率和效率要优于其它算法。最后,针对民航客票代理人在航空产业中占据越来越重要的地位,但是对其研究却少之又少的情况。本文将两种算法应用于真实的民航客票代理人的数据分析,实验证明算法有效可行,具有实际利用价值,可以为航空公司对代理人的管理、销售方案的制定提供了依据与帮助。
其他文献
为了有效提高应用型本科院校计算机专业学生的创新创业能力,构建了以创新创业能力培养为目标,以实践平台为基础的计算机专业创新创业教育实践体系。主要包括以下内容:第一,构
苏鲁地体南部的高压变质带由中温高压变质岩片和低温高压变质岩片两部分组成,前一岩片自下而上依次为含砾白云石英岩、云母二长石英片岩、大理岩磷块岩、白云钠长石英片岩;后
<正>通过规范协调马镇镇、沙峁镇、贺家川镇、万镇镇四个沿黄乡镇旅游产品,打造一个黄河大峡谷生态旅游带,从而让黄河文化风情规模呈现,辖区内宗教文化、红色文化和乡村旅游
随着我国市场经济的良好发展,我国财务经济管理取得了巨大的建设性成就。然而,现阶段财务经济管理仍然存在一些问题,对财务经济管理相关活动造成了一定的不良影响。因此,有必
2020年初,新冠病毒肆虐,在人人自危、谈"毒"色变的危急时刻,成都英联华物业集团有限公司快速反应,紧急成立防疫指挥领导小组,全面部署,及时购置补充防疫物资,迅速收拢人员,并
2020新年伊始,一场新中国成立以来传播力度、范围扩散最广的新冠肺炎疫情,让1000多万物业人站到了防控前线。舍小家顾大家,他们日以继夜,坚守在自己平凡的岗位上,构筑起战疫
线式电势差计是大学物理实验中一个非常重要的实验,通过&#39;补偿法&#39;对待测电源的电动势和内阻进行测量。利用单片机技术和C语言程序,通过程序控制和模数转换,实现长度显
历史版本的情景可以转化为知识实例,用于后续查询和推理。知识查询需要涉及到实例检索过程。实例检索问题可以通过ABox满足性测试(ASAT计算)完成,ASAT计算可通过Tableau算法实现