论文部分内容阅读
随着社会信息化的进程,海量数据迅速出现,许多并行数据挖掘算法已被提出。聚类分析是数据挖掘的一种强有力的分析工具,其显著特征就是不需要任何先验知识或信息,属于无监督学习。K-means算法是典型的基于划分的聚类算法,简单且易于实现,但也存在缺点,如对初始聚类中心敏感,易陷入局部最优等。面对大规模海量数据和高维数据类型,传统计算模型已经难以提供所需的处理能力,Hadoop云计算平台的出现为数据的处理提供了新的方式。电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。当今全球能源问题日益严峻,国内外对智能电网的建设都进行了深入推进,伴随着产生的电力数据呈指数级增长,成为了众所关注的大数据。鉴于大数据在电网中出现的场合越来越多,有必要结合Hadoop云平台,借助分布式冗余存储及并行计算等,对电力海量数据的可靠、高效处理进行研究。本文利用云计算中的MapReduce并行框架对聚类分析中的K-means算法进行并行化研究,并建模对电力系统不良数据进行检测和辨识,主要的研究工作如下:首先,针对传统聚类算法无法满足处理海量数据等情况,在分析现有K-means算法不足的基础上,引入随机抽样和最大最小距离法等技术,并结合MapReduce并行计算框架,提出一种基于MapReduce的改进K-means聚类算法—MR-IKmeans(MapReduce-based Improved K-means)。首先对数据集进行多次随机抽样,然后运用两阶段最大最小距离法以产生最佳初始聚类中心,最后再用K-means算法进行聚类。选用UCI知名数据集在Hadoop集群上的实验表明:该算法在收敛速度及聚类精度上优于传统K-means算法,且在处理海量数据时具有优异的并行性能。其次,针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的MapReduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于MapReduce框架的方法相比,具有更好的加速比、扩展性,能更好的处理电力系统的海量数据。在实验室搭建云计算集群并进行实验测试与算例分析,结果证明,本文提出的算法是快速有效的,基于Spark和聚类分析的辨识不良数据的新方法效果良好,满足了电力系统处理海量高维数据的需求,在保证电力系统状态估计准确性方面具有十分重要的应用价值。