论文部分内容阅读
针对用户用电行为数据挖掘效率低,规模大的难题,提出了基于Hadoop平台的用电行为数据特征挖掘方法.将用电行为数据按行保存于Hadoop分布式文件系统,把用电行为数据集划分为不同切片产生子数据集,利用MapReduce计算模块对各切片数据进行读取.对k-means方法进行优化,针对初始聚类中心的选择问题,通过数据密度进行处理,结合KL散度,对挖掘得到的用电行为数据进行聚类处理.针对主成分分析方法的弊端进行优化,在进行协方差矩阵特征分解的过程中,可对新到达的电力数据进行增量计算,无需对全部电力数据进行扫描,降低计算复杂度,实现用电行为数据流的特征提取处理.经实例验证,所提方法特征挖掘精度高,可有效分析用电行为数据.