基于MapReduce的聚类算法并行化研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:zb272939419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的进程,海量数据迅速出现,许多并行数据挖掘算法已被提出。聚类分析是数据挖掘的一种强有力的分析工具,其显著特征就是不需要任何先验知识或信息,属于无监督学习。K-means算法是典型的基于划分的聚类算法,简单且易于实现,但也存在缺点,如对初始聚类中心敏感,易陷入局部最优等。面对大规模海量数据和高维数据类型,传统计算模型已经难以提供所需的处理能力,Hadoop云计算平台的出现为数据的处理提供了新的方式。电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。当今全球能源问题日益严峻,国内外对智能电网的建设都进行了深入推进,伴随着产生的电力数据呈指数级增长,成为了众所关注的大数据。鉴于大数据在电网中出现的场合越来越多,有必要结合Hadoop云平台,借助分布式冗余存储及并行计算等,对电力海量数据的可靠、高效处理进行研究。本文利用云计算中的MapReduce并行框架对聚类分析中的K-means算法进行并行化研究,并建模对电力系统不良数据进行检测和辨识,主要的研究工作如下:首先,针对传统聚类算法无法满足处理海量数据等情况,在分析现有K-means算法不足的基础上,引入随机抽样和最大最小距离法等技术,并结合MapReduce并行计算框架,提出一种基于MapReduce的改进K-means聚类算法—MR-IKmeans(MapReduce-based Improved K-means)。首先对数据集进行多次随机抽样,然后运用两阶段最大最小距离法以产生最佳初始聚类中心,最后再用K-means算法进行聚类。选用UCI知名数据集在Hadoop集群上的实验表明:该算法在收敛速度及聚类精度上优于传统K-means算法,且在处理海量数据时具有优异的并行性能。其次,针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的MapReduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于MapReduce框架的方法相比,具有更好的加速比、扩展性,能更好的处理电力系统的海量数据。在实验室搭建云计算集群并进行实验测试与算例分析,结果证明,本文提出的算法是快速有效的,基于Spark和聚类分析的辨识不良数据的新方法效果良好,满足了电力系统处理海量高维数据的需求,在保证电力系统状态估计准确性方面具有十分重要的应用价值。
其他文献
可信度量问题是可信计算领域的基本问题,也是难点问题之一。目前有关可信度量的研究主要集中在静态度量方面。软件的动态可信度量是对动态运行过程中的软件度量其可信性。软
学位
自从上个世纪末以来,微机新技术层出不穷,其中互联网的诞生和兴起更是改变了人类传统的依据手工单机的信息处理方式。因由互联网的存在,信息处理已经从单机处理,到多机协从,
信息技术在当今教育思想、理论的指导下,在教育、教学中得到了广泛的应用。随着教育领域的信息化程度不断加深,越来越多的针对不同教育部门和不同需求所开发的软件产品已投入
随着网络信息化的不断深化,特别是网络应用的迅速增加,信息安全成为企业用户越来越重视的问题,访问控制技术作为访问权限管理的重要组成部分,逐渐得到广大研究人员的关注。访
随着电力信息网络系统的广泛应用的同时,电力信息系统面临的信息安全的问题也越发突出,内部和外部的各种入侵攻击层出不穷,已成为影响电力系统生产和经营正常运行的重大问题
随着互联网的发展,网络规模也在不断地扩大,新一代网络的发展使得网络环境变得更加复杂。网络带宽分配作为网络研究的核心问题之一,受到了许多研究者的关注。他们在这方面做了很
随着计算机应用及网络的普及,人类进入了信息时代,生活方式发生了巨大的改变,人们可以通过网络进行学习、工作、交流,互通信息的有无。然而,在享受网络带来的便利的同时,信息的安全
广域量测系统作为智能电网体系结构中的重要组成部分,其数据的安全性很大程度上决定着整个智能电网的安全性。随着广域量测系统应用的普及,智能电网广域量测系统所产生的数据
随着IT技术的快速发展,嵌入式系统与互联网已经无所不在,越来越深刻地影响着我们工作和生活,而这两者的结合已经是一种必然,将嵌入式系统接入网络已经成为IT领域研究和应用的热点。作为以应用为中心和计算机技术为基础的专用计算机系统,嵌入式系统主要由底层硬件设备、实时操作系统以及应用程序三个部分组成,完成对其他设备的控制、监视和管理。大气电场仪用于测量大气电场值,可用作易受静电及雷电危害的场所安全监视的预
随着计算机和网络技术的飞速发展,人们购买商品的途径和方式发生了根本的转变。从传统的面对面购买发展到在Internet上浏览相关网站,根据自己的需求有目的、有针对性的选择定