K-means算法的一种新解法及应用

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:ytfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新型产业的迅速发展,无时无刻不都在产生与积累大量数字信息,聚类分析作为数据挖掘的重要工具,目的就是从无标签数据集中获取数据内部潜在规律,这使得其成为互联网时代从海量数据中获取对人类发展有价值的信息的重要技术。k-means算法是聚类分析领域的热门算法之一,有着简单快捷、实用性高和伸缩性强等优点,在文件处理、传染病、市场监管等多领域广泛应用。由于k-means算法选取聚类数目k值跟初始值的随机性,导致聚类结果不稳定。为此,不同于k-means传统解法Lloyd算法,论文提出一种基于谱聚类形式的k-means新解法,解决了随机选取初始值导致高维大数据集聚类效果不佳问题。此外,将所提方法应用在油浸式变压器故障预报上。论文的主要工作叙述如下:(1)简单介绍了相关背景知识,详细地介绍k-means算法传统解法Lloyd算法具体步骤;简要介绍基于图论的谱聚类算法、三种常见的聚类评价指标、谱旋转及谱松弛等,为下文提出k-means新解法奠定了理论基础。(2)Lloyd算法由于初始值的随机性导致聚类结果较差,针对高维大数据集尤为明显。为此,论文提出了一种基于谱聚类(Spectral Clustering)形式的k-means算法的新解法。不同于Lloyd算法随机选取初始聚类中心,SCK-means算法从解k-means算法目标函数的角度出发,通过求导、非奇异分解、坐标下降法等方法对目标函数值变换成谱聚类形式,然后迭代更新直至得到最优解,将其得到的指示矩阵带回数据集确定最终聚类结果。最后在数据集上进行实验,显示了新解法SCK-means算法的快速性和有效性。(3)结合故障应用领域的特点,论文提出了基于SCK-means的油浸式变压器故障预报方法。首先建立并优化背景值序列的GM(1,1)模型,预测油浸式变压器故障状态时五种特征气体(H 2、CH 4、C2 H 2、C2 H 4、C2 H 6)含量;其次,根据特征气体对变压器故障权重不一的特点,采用互信息方法确定特征气体权重;然后,根据六种常见的油浸式变压器故障,设置SCK-means中聚类数k值为6,利用所提方法SCK-means得到聚类结果,最终确定变压器故障类型;最后,仿真结果表明所提方法的有效性。论文提出了有别于传统Lloyd算法的一种k-means新解法,收敛性快,精度高。研究成果对扩展k-means算法的解法具有一定的研究意义。
其他文献
在工程建设中,岩体稳定性与工程的安全性、可靠性密切相关,因此,了解施工环境中岩体的力学性质是工程开展建设的一个重大前提。岩体力学性质受层状构造影响较大,而含有层状构造的岩体分布又十分广泛,因此在工程建设中若只考虑岩性而忽略层理倾角变化引起岩石力学性质的改变或给工程的平稳运行带来巨大的风险,故而有必要对层理倾角的变化引起岩石破坏模式、力学性质等方面的改变开展研究。本课题通过选取竖直层理、水平层理以及
区域光滑径向点插值法是近年发展起来的一种性能优良和应用广泛的无网格法。该方法将问题域划分为一系列的背景单元,且将每个单元作为一个光滑子域,引入梯度光滑技术将传统的区域积分转化为边界积分。该方法不仅具有较高的计算效率和求解精度,而且具有较高的抗网格畸变能力。此外,该方法构建的形函数具有插值性,可直接施加本质边界条件。为了拓展极限分析的数值方法和发挥区域光滑径向点插值法的优势,本文采用区域光滑径向点插
随着全国地铁隧道修建的增多,不同地区隧道修建所面临的问题也不同。本文研究对象为南昌地铁隧道基底不同风化程度的泥质粉砂岩地层,其物理力学性质较差,属极软岩,并且南昌地下水位较高,水-岩耦合作用下会导致风化软岩进一步软化和崩解,并在长期地铁列车荷载作用下风化软岩的累积变形逐渐增加,不均匀沉降问题日益凸出。鉴于此,本文以南昌地铁基底不同风化程度泥质粉砂岩为研究对象,通过扫描电镜SEM试验、X射线衍射试验
随着地下资源的不断开发和利用,深部层状复合岩石的研究受到了广大学者的重视。层状复合岩石处于高应力、多耦合场的复杂环境中,由不同厚度、不同力学性质的岩石,通过不同的结合方式的叠加而成。与单一岩石相比,层状复合岩石的性能复杂,给深部地下工程的设计与施工带来了很多困难。为了深入研究层状复合岩石的力学性能,本文通过人工制成了由白砂岩、红砂岩、青砂岩三种单一岩石组成的类层状复合岩石,设置了0°、15°、30
受电弓与接触网所组成的弓网系统是保证电力机车安全高效运行的供能核心,然而铁路科技不断革新发展,列车高速化和重载化的技术突破对弓网系统提出新的挑战:要求弓网系统不仅可以为服役列车的牵引或制动行为提供更多的电能,而且能较好地应对高速化和重载化下服役环境的恶化,确保列车受流质量不受影响。这也意味着弓网系统中的载流摩擦副的导电性、耐磨性、硬度强度等性能需要得到进一步提升,进而延长其服役寿命。由于铜基接触线
牵引供电系统会经常发生短路事故,造成高速铁路运行发生中断,如果不能快速的定位故障点并及时排除故障,将严重影响牵引供电系统的运行安全,并给铁路的运输生产造成重大损失。故障测距装置是一种安装在变电所的装置,它通过实时监测牵引供电系统故障状态下的暂态电压电流信号,并经过分析计算给出故障点的位置。牵引供电系统由于其特殊的供电方式,故障测距的准确性和精确性一直是故障测距装置研究与开发的一个难点。目前牵引供电
钢筋混凝土结构是世界上使用率最高的结构之一,广泛用于建筑房屋、桥梁、道路、水利工程等基础设施中,由于混凝土自身的稳定性以及混凝土对内部钢筋有一定保护作用,人们在很长一段时间内都忽视了混凝土耐久性对结构的影响。近年来,随着钢筋混凝土结构数量的不断增多,结构的耐久性问题异常突出,越来越多的钢筋混凝土结构在远未达到其设计使用寿命时就经历了严重的力学性能退化,这在很大程度上威胁了结构的可靠性和安全性。结构
数字图像相关法(Digital Image Correlation,DIC)是一种非接触的光学测量方法。因为其操作简便、全场测量、精度高等特点,在许多领域得到了广泛的应用,并解决了很多实际工程问题。然而随着科技的发展,对测量的要求越来越高,该方法也存在一些亟待解决的问题。例如对旋转物体的变形测量,应用传统的DIC方法会出现较大的误差,难以满足实际要求。针对此问题,本文提出一种改进的DIC算法,该方
比例边界法是一种半解析数值方法,在处理应力奇异性问题和无限域问题时十分有效。插值型无单元伽辽金比例边界法(Interpolating Element-Free Galerkin Scaled Boundary Method,简称IEFG-SBM)是在改进的插值型移动最小二乘法的框架下融合了无单元伽辽金法与比例边界法的优势。该方法在径向上保留了解析性质,计算时只需要在边界上离散节点信息,将空间维数降
论文针对生物三维(3D)打印技术中打印参数选择不便,以及现阶段生物打印工艺难以稳定、快速地使用等问题,开展了基于GelMA水凝胶的生物墨水打印工艺研究。通过研究生物墨水交联机理对形状可控性和性能可控性的影响,建立了“材料-形状-性能”之间的关系,从而对打印工艺参数的选择进行指导。首先,根据挤出式生物3D打印墨水的流变学测试结果,确定了挤出式生物3D打印墨水的打印温度参数及相关模量信息。并在此基础上