论文部分内容阅读
大坝监测系统不断完善的同时,监测点数目日益增多,积累了大量存在复杂相关性的监测数据,需采用有效的数据挖掘方法,快速、准确地对监测数据的复杂相关性进行挖掘,筛选出典型监测点,及时掌握大坝安全性态。密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)作为新提出的一种数据挖掘方法,对数据集分布形状要求低且对噪声不敏感,能快速实现任意形状数据集的精准聚类,在处理复杂数据上具有显著优势,但该方法在实际数据分析应用中存在不足。本文将可拓关联函数引入密度峰值聚类算法中,克服聚类过程中样本点出现大量连错问题;借鉴进化算法思想对改进算法进一步优化,克服其在运行过程中稳定性问题;最后将改进算法应用于大坝监测数据处理中,准确筛选出大坝变形、裂缝及应力应变典型监测点。全文研究内容如下:(1)提出了一种基于可拓关联函数的改进密度峰值聚类算法(Extension Correlation Function-CFSFDP,EC-CFSFDP),克服CFSFDP算法在确定聚类中心及分配非簇心点时,易出现大量连错的问题。本文主要从簇心选取和非簇心点分配策略两方面进行改进,以降低样本连错效应。引入平均差异度概念作为样本点密度度量方式,避免重复存在多个相同密度样本点对簇心选取的干扰,在此基础上,构建归一化决策函数,改善变量分布不均匀现象,确保簇心准确地挑选;在非簇心点分配策略上,引入可拓关联函数替代传统基于距离的相似度度量方式,基于样本点k邻域思想,构建各簇的节域与经典域,进而获得代表样本点相似度大小的可拓关联函数值,基于该值的大小完成非簇心点的精准聚类,降低连错效应。改进算法在没有增加时间复杂度的同时提高了聚类准确率,但由于分配策略中k邻域值的选取缺乏科学依据,对算法的稳定性有一定影响。(2)提出了一种自动选取k邻域的优化聚类算法(AUTO EC-CFSFDP,AEC-CFSFDP),采用遗传算法对k邻域值优化,克服EC-CFSFDP算法中k邻域值对算法稳定性影响的问题。通过引入簇类相似度和簇间相似度指标,定义聚类效果平衡准则函数,作为迭代过程中衡量k值好坏的目标函数;在选择交叉变异过程中引入自适应交叉概率及自适应变异概率降低交叉、变异概率对种群多样性的影响,提高算法收敛速度并获得全局最优的k值;将最优k值传入EC-CFSFDP算法中自动完成聚类。实验证明,该方法克服了EC-CFSFDP算法稳定性不高的问题,通过对比分析发现AEC-CFSFDP算法的准确率上高于EC-CFSFDP算法及IDPCA算法、DBSCAN算法和k-means算法,对样本分布的状态要求较低,能实现对不同分布形式的数据集高效聚类,并且算法时间复杂度并未增加。(3)将AEC-CFSFDP算法应用于某水电站大坝典型监测点的选取。对监测数据的缺失值采用平均值插补法进行处理,并对其进行标准化处理,对预处理后的数据从大坝位移、裂缝及应力应变三方面的监测点分别进行聚类分析,挑选出典型监测点,采用平均总误差指标对大坝典型位移监测点挑选的可行性进行分析,并将本文方法与DBSCAN算法、OPTICS算法及k-means三种算法所挑选的典型监测点进行对比分析。本文所提的AEC-CFSFDP算法在大坝位移、裂缝及应力应变监测数据分析中所挑选的典型监测点误差满足大坝工程可行性要求的同时,挑选的准确率整体上高于其他三种分析方法,表明所提的AEC-CFSFDP算法在大坝监测数据中具有较好的适用性及较高的准确率。本文结合关联函数和进化算法思想,改进了传统密度峰值聚类算法存在的不足,通过实验分析证明改进算法克服了连错性并提高了算法稳定性。实时监测、分析大坝变形、裂缝及应力应变监测数据是保障大坝安全运行的关键,将改进的密度峰值聚类算法应用于存在复杂相关性的大坝监测数据的挖掘,筛选出典型监测点,为大坝工作人员运行管理工作提供重要的理论分析指导。