论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是从大量的含有噪声的数据中挖掘出隐含其中的知识和信息,是当前数据分析的先进手段之一。数据挖掘的模式主要包括分类模式、聚类模式、时间序列模式、关联模式、序列模式等。电网数据智能分析系统借助数据挖掘领域中的各种算法模型对电网的电力设备故障、日报数据、运行数据进行智能分析,通过对大量初始记录数据的清理,根据电网安全运行特点提炼出与分析因素有联系的记录数据,装载到数据仓库,然后对其进行相应挖掘算法的处理,得到需要的知识,为保障电网的安全运行提供理论支持。电网数据智能分析系统主要包括数据ETL、知识挖掘、数据动态更新和可视化显示四个子系统。数据ETL实现数据的清洗、整理和装载,在保证不减少数据所包含信息的前提下改善数据质量,提高数据挖掘算法的性能;知识挖掘部分是系统的核心,运用合适的挖掘算法模型对数据仓库中的数据进行挖掘,得到需要的知识;数据动态更新指随电网数据的变化实现动态知识挖掘;可视化显示实现挖掘结果的图形显示。本文首先概述数据挖掘的基本概念和数据挖掘模型,阐明了电网数据智能分析系统的设计思想和体系结构,其次详细论述系统中采用的数据ETL、数据挖掘的关联规则算法、时序预测算法、数据的动态更新等关键技术及其软件实现,然后分析了系统测试结果,最后给出结论和展望。本项目课题已通过西北电网公司的验收,并在西北电网智能数据分析中得以使用,取得良好的效果。