基于Hadoop平台的聚类算法研究与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:Ddaqdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘技术中,聚类分析是一个重要的组成部分。它是一种无监督的分类技术。使用聚类分析技术,数据分析人员可以从数据集中获取到数据隐含的、有价值的信息。由于社会信息化的推动,使得需要进行聚类运算的数据量迅速增长。原有的传统聚类分析方式已不足以应对当前的数据规模,针对这个问题,目前流行的Hadoop分布式大数据处理平台,为聚类分析的发展和研究提供了强有力的支持。
  本文针对传统聚类算法在大规模数据上执行效率低下的问题,基于Hadoop平台,使用分布式优化机制对传统聚类算法进行改进,主要工作如下:
  1)对基于划分的k-means聚类算法进行研究,分析了该算法的特点和执行过程及其缺点。针对其随机选取初始形心导致聚类结果不理想和在大规模数据集上运行时间长的问题,给出了一种基于MapReduce模型的ADC-k-means算法,可以提高算法的稳定性和准确率。
  2)对基于密度的DBSCAN聚类算法进行研究,分析了该算法的执行特征及其缺点,结合Canopy聚类算法和k-d树数据结构,采用缩小查询对象ε-邻域范围的方法,给出了一种基于MapReduce模型的C-DBSCAN-K算法,在保持准确度不降低的情况下,提高了算法的执行效率。
  3)在Hadoop平台上进行实验:(1)以UCI公共数据集为实验数据,实验证明本文提出的ADC-k-means算法在稳定性和准确率方面要优于Hadoop上的Mahout机器学习库实现的分布式k-means算法,准确率平均提高了8%;(2)在R语言包生成的四组模拟数据集上,验证了C-DBSCAN-K算法在运行速度上明显快于DBSCAN算法,运行速度平均提高了50.6%。
其他文献
随着计算机技术的迅猛发展与不断革新和攻击手段的日益复杂化,网络攻击事件的频发对国家、社会造成的危害越来越恶劣。传统的安全技术面临着难以满足对网络全方位保障和对其状况精确掌握等问题。网络安全态势评估能够从整体上掌握网络环境的安全威胁变化,帮助决策人员正确分析安全变化情况并制定有效的应对策略,这对提高网络监测能力、威胁处理能力和保护信息安全方面具有关键性作用。因此,网络安全态势评估具有重大的研究意义。
随着信息技术的发展,当前医疗机构电子化越来越普及,为了更好地提供或得到医疗服务,实现临床信息的共享和交换必不可少。但是目前医疗系统间异构,数据标准、传输格式、数据格式不统一的问题严重阻碍了临床信息传递与交换,患者的临床信息无法得到充分利用,造成了医疗机构之间无法进行沟通。临床信息的交换与共享,可以使医疗服务人员获得病人任何时间、任何地点的相关信息。并且,临床数据的集成是实现分布式环境下临床决策支持
入侵检测系统作为防火墙的补充,可以通过主动防御的方式提前预判网络环境中存在的安全隐患并及时做出响应,协助防火墙保障网络安全。入侵检测系统的核心技术在于检测算法。高效、稳定的检测算法能通过较少的特征数据对网络中的连接进行精准识别,达到提前预警的目的。  本文针对入侵检测系统中的检测算法进行研究,在学习和研究同类算法的基础上展开讨论。全文主要工作如下:  (1)介绍了入侵检测系统的技术背景,国内外研究
学位
随着云计算和海量存储以及新的网络技术的急速发展,网络的安全与维护面临着许多的问题。首先,网络规模日趋庞大,网络带宽增长迅速,现有的网络监控设施缺乏足够的监测手段和扩展性来应对这种变化。其次,网络应用越来越丰富,以及各类潜在于流量中的网络威胁,使得网络资源变得匮乏,导致网络性能不断下降乃至崩溃,我们必须尽早预测出风险并展开适当的风险评估,进而保护网络资源。因此,实时有效地对网络资源风险进行预测及评估
学位
近年来,在嵌入式技术的推动下,可穿戴设备与可穿戴式系统得到了较大的发展。随着人们对于自身健康关注度的提高、对生活质量要求的提高和对电子产品接纳度的提高,与手表、服饰等日常用品相结合的可穿戴设备应用的研究成为当前国内外研究的热潮。而将可穿戴设备应用于医疗健康领域,逐渐得到人们的重视,尤其在我国老龄化逐渐增大的国情之下,设计与实现能够应用于日常健康检测的可穿戴式人体生理特征检测系统对于解决老年人的健康
共享单车于2014年开始爆发式地投放,解决了大学校园出行不方便的问题并不断向全体市民普及。虽然共享单车解决了城市居民出行问题,但共享单车爆发式的出现,共享单车的管理未能跟上步伐,共享单车的用户管理、定价结构、服务体系、运营资金管理、交通管理、停放管理以及维修管理等都诸多管理问题突显。本论文通过平台大数据分析,查找共享单车管理中存在的问题,优化服务体系、构建运营新模型,以细分市场、细分用户,实行针对
学位
随着云计算的日渐成熟,愈来愈多的用户把数据存储在云服务器上。由于云服务器不完全可信,保护数据的机密性同时提供查询的隐私性就成为云存储中的热点研究问题。可搜索加密技术的提出为云存储中这一难题的解决提供了可行的途径。然而,模糊关键词的可搜索加密,尤其是面向中文的模糊关键词可搜索加密仍然是值得深入研究的课题。  本文针对模糊中文关键词的可搜索加密方案展开研究工作,主要工作成果包括以下三个方面。  首先,
随着移动互联网的飞速发展,人们对基于位置服务的需求越来越强烈,室内定位技术越来越成为研究热点。室内定位在设备、人员的监控和管理等领域已经广泛应用。针对一种室内定位技术的定位精度不高的问题,本文研究了WIFI和蓝牙技术融合的定位方法。  首先,针对基于WIFI的位置指纹算法在室内定位中的关键问题进行了分析,室内复杂环境下WIFI信号强度波动较大,指纹特征和匹配算法是影响算法精度的两大因素。具体研究中
学位
近年来,随着自动化技术的不断出现,越来越多的公司去关注“测试数据、用例设计自动化”以及“测试结果分析、定位、质量自动化”等。目前,对于大型复杂软件,人工检测很容易漏测,需要一个全自动的测试系统,能够通过计算,快速的覆盖程序所有逻辑,得到输入输出,从而辅助人工生成大量测试用例,同时发现一些软件缺陷。但是,自动化测试的前提是测试用例的自动化生成。因此,尽可能代码全覆盖、简单实用、性价比高的测试用例自动
数据挖掘技术因为能够从海量数据中获得潜在的、正确的、有价值信息而成为研究热点。关联规则挖掘是数据挖掘的核心研究分支之一,而频繁模式挖掘作为关联规则挖掘的一个关键步骤,更具有研究价值。然而屡次发生的隐私泄露事件,给数据挖掘中的隐私保护带来极大的威胁,由于添加了隐私保护,挖掘效率已经成为大多数隐私保护的频繁模式挖掘算法的瓶颈。因此,提高隐私保护频繁模式挖掘算法的效率成为迫切需要解决的问题,并且数据库的
学位