密度峰值聚类算法研究及其在大坝监测数据中的应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:taowangqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大坝监测系统不断完善的同时,监测点数目日益增多,积累了大量存在复杂相关性的监测数据,需采用有效的数据挖掘方法,快速、准确地对监测数据的复杂相关性进行挖掘,筛选出典型监测点,及时掌握大坝安全性态。密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)作为新提出的一种数据挖掘方法,对数据集分布形状要求低且对噪声不敏感,能快速实现任意形状数据集的精准聚类,在处理复杂数据上具有显著优势,但该方法在实际数据分析应用中存在不足。本文将可拓关联函数引入密度峰值聚类算法中,克服聚类过程中样本点出现大量连错问题;借鉴进化算法思想对改进算法进一步优化,克服其在运行过程中稳定性问题;最后将改进算法应用于大坝监测数据处理中,准确筛选出大坝变形、裂缝及应力应变典型监测点。全文研究内容如下:(1)提出了一种基于可拓关联函数的改进密度峰值聚类算法(Extension Correlation Function-CFSFDP,EC-CFSFDP),克服CFSFDP算法在确定聚类中心及分配非簇心点时,易出现大量连错的问题。本文主要从簇心选取和非簇心点分配策略两方面进行改进,以降低样本连错效应。引入平均差异度概念作为样本点密度度量方式,避免重复存在多个相同密度样本点对簇心选取的干扰,在此基础上,构建归一化决策函数,改善变量分布不均匀现象,确保簇心准确地挑选;在非簇心点分配策略上,引入可拓关联函数替代传统基于距离的相似度度量方式,基于样本点k邻域思想,构建各簇的节域与经典域,进而获得代表样本点相似度大小的可拓关联函数值,基于该值的大小完成非簇心点的精准聚类,降低连错效应。改进算法在没有增加时间复杂度的同时提高了聚类准确率,但由于分配策略中k邻域值的选取缺乏科学依据,对算法的稳定性有一定影响。(2)提出了一种自动选取k邻域的优化聚类算法(AUTO EC-CFSFDP,AEC-CFSFDP),采用遗传算法对k邻域值优化,克服EC-CFSFDP算法中k邻域值对算法稳定性影响的问题。通过引入簇类相似度和簇间相似度指标,定义聚类效果平衡准则函数,作为迭代过程中衡量k值好坏的目标函数;在选择交叉变异过程中引入自适应交叉概率及自适应变异概率降低交叉、变异概率对种群多样性的影响,提高算法收敛速度并获得全局最优的k值;将最优k值传入EC-CFSFDP算法中自动完成聚类。实验证明,该方法克服了EC-CFSFDP算法稳定性不高的问题,通过对比分析发现AEC-CFSFDP算法的准确率上高于EC-CFSFDP算法及IDPCA算法、DBSCAN算法和k-means算法,对样本分布的状态要求较低,能实现对不同分布形式的数据集高效聚类,并且算法时间复杂度并未增加。(3)将AEC-CFSFDP算法应用于某水电站大坝典型监测点的选取。对监测数据的缺失值采用平均值插补法进行处理,并对其进行标准化处理,对预处理后的数据从大坝位移、裂缝及应力应变三方面的监测点分别进行聚类分析,挑选出典型监测点,采用平均总误差指标对大坝典型位移监测点挑选的可行性进行分析,并将本文方法与DBSCAN算法、OPTICS算法及k-means三种算法所挑选的典型监测点进行对比分析。本文所提的AEC-CFSFDP算法在大坝位移、裂缝及应力应变监测数据分析中所挑选的典型监测点误差满足大坝工程可行性要求的同时,挑选的准确率整体上高于其他三种分析方法,表明所提的AEC-CFSFDP算法在大坝监测数据中具有较好的适用性及较高的准确率。本文结合关联函数和进化算法思想,改进了传统密度峰值聚类算法存在的不足,通过实验分析证明改进算法克服了连错性并提高了算法稳定性。实时监测、分析大坝变形、裂缝及应力应变监测数据是保障大坝安全运行的关键,将改进的密度峰值聚类算法应用于存在复杂相关性的大坝监测数据的挖掘,筛选出典型监测点,为大坝工作人员运行管理工作提供重要的理论分析指导。
其他文献
基于5根桩现场试验资料的分析,对表征管桩承载性状的桩顶荷载-桩顶沉降曲线、桩身压缩-桩顶荷载曲线进行了数学描述。结果表明:1)用Boltzmann数学模型拟合5根桩的桩顶荷载-桩顶
香港丽思卡尔顿酒店由香港最大地产发展商之一的新鸿基地产发展有限公司全权拥有,为全球最高的酒店,在酒店开业初期,管理层就对环保节能工作高度关注,从多方面进行节能减排方
期刊
本文通过对水利水电工程安全鉴定和验收相关问题的研究,阐明了安全鉴定和验收工作的区别和联系,安全鉴定工作的开展对验收工作具有重要作用,有些验收工作必须在安全鉴定工作完成
一个失效模式由许多的失效单元构成,它是一个并联系统;而所有的失效模式构成一个串联系统。整个结构体系可看成是许多并联系统(失效模式)组成的一个串联系统。首先,利用基于响应面
目的探讨1型糖尿病大鼠造模后肾脏Ⅳ型胶原的表达及肾小球病理形态改变及坎地沙坦的保护作用和机制。方法雄性Wistar大鼠36只,随机分出正常对照组(NC组)12只,余24只腹腔注射链
随着高原夏菜的大量出产,净菜上市在田间收获、加工和运输以及销售过程中产生的尾菜数量急剧上升。这些尾菜往往被遗弃在田间地头、市场周边,在腐烂变质的过程中产生恶臭,并
传统民居是一种非正式的传承的建造体系,是人类通过试错的方式在一个较长的时间跨度下对所身处环境及自身居住需求得出的一套解决方案。作为在严苛的自然条件中生活和生产的
新年伊始,各大厂商纷纷推出了各自的得意新品。从功能上来说,更注重耐用性和多样性,能根据不同年龄段的孩子在骑乘运动、动手组装技能学习等需求而改变:从结构上说,更为灵活多变,以
目前我国很多地区地下水都已经出现了水质恶化的现象,导致地下水无法投入到生产以及生活当中。地下水的污染问题已经成为一个突出的环境问题。本文主要阐述了我国地下水污染源
随着社会的发展进步.妇女广泛地参与到社会各个行业中.她们自尊、自强、自信、自立,在各自的岗位上发挥了重要作用。并取得显著成绩。社会主义市场经济在为妇女发展和妇女工作提