基于密度峰值的聚类算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:ch21st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的兴起与高速发展,数据呈现出数据源多样化和数据量海量化的特点,如何对大规模数据进行数据挖掘并快速获得有效信息成为近期研究的焦点。本文重点研究了密度峰值聚类算法(DPC),该算法通过建立决策图并从图中快速找出聚类中心以实现对数据的分组。虽然密度峰值聚类算法在数据聚类上表现高效且实现方便,但是其自身也存在一些问题。应用DPC算法时,截断距离参数需提前设定,并且目前的设定方法依赖手动设定,不正确选择截止距离dc将导致错误选择初始聚类中心,并且DPC算法无法在后续分配过程中对其进行纠正。此外,即使设置了适当的参数,仍然难以从决策图中选择初始聚类中心,因此影响聚类质量;另外,DPC算法对高维度数据的分析处理存在一些缺陷,因为高维度数据自身的稀疏性和空间复杂性,所以算法一般采用的欧式距离无法准确且合理体现数据点之间的相似性,导致聚类效果一般。DPC算法对噪声的识别也存在一定的局限性,往往无法准确识别出数据集的噪声点。DPC算法的局限性影响了该算法的推广应用,所以对DPC算法的改进具有十分重要的意义。本文的研究成果主要体现在下列几个方面:(1)针对DPC算法易受人为干预影响和对参数设置敏感的问题,即错误的截断距离会导致初始聚类中心出现较大偏差,即使设置了正确的截断距离,仍然难以从决策图中精确选择初始聚类中心。针对该局限性,提出一种自适应聚合策略优化的密度峰值聚类算法。该算法首先基于最近K邻居来计算数据点的局部密度,然后将其与初始阈值进行比较以选取初始聚类中心,并将其余点归类到离它距离最近的初始类簇中心所在的类簇,最后提出一种新的合并策略,即通过类簇间密度可达的概念来合并初始类簇。实验结果表明,该算法在合成和UCI数据集中的表现比DPC,DBSCAN,KNNDPC和KMEANS算法要优秀,能有效提高聚类准确率和质量。(2)针对基于密度峰值的聚类算法存在参数敏感、处理非球面数据及复杂流形数据聚类效果差、噪声识别存在局限性的问题,提出了自然最近邻优化的密度峰值聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割确定聚类中心,将其余点归类到离它距离最近的初始类簇中心所在的类簇,最后提出一种类簇间相似度概念,以解决复杂流形问题。在噪声点局限性的问题上,通过自然最近邻居的特性设定阈值来解决。实验结果表明,该算法在合成和UCI数据集中的表现比DPC,DBSCAN,KNNDPC和KMEANS算法要优秀,也具有更高的鲁棒性,并且在非球面数据和复杂流形数据上也表现出很强的优越性。(3)结合论文第三章和第四章算法的优点,提出利用自然最近邻居计算局部密度,利用自适应聚合策略得到初始类簇中心并合并相似类簇的算法以解决算法的参数敏感问题。通过实验,首先基于UCI数据集验证该算法的有效性,然后将这一算法应用于学生信息分析。实验结果表明,本算法分析结果可有效指导教育部门针对学生不同的学习条件和身体基本素质,因材施教,从而达到更好的教育效果。
其他文献
通过对不同饲养期、同一份血清中高致病性猪蓝耳病(PRRS)、猪瘟(CSF)、猪O型口蹄疫(FMD)三种疫病的免疫抗体监测分析,仔猪、育肥猪、种猪免疫抗体的保护率及阳性率分别为:PRR
基于1997-2010年中国31个省市的水足迹强度的计算,本文分析水足迹强度差异与劳均GDP差异之间的关系,使用面板数据模型对各省市劳均GDP差异收敛性和水足迹强度差异收敛性进行
近年来,政府信息公开实践中新问题、新情况层出不穷,各级政府部门在政府信息公开具体工作中面临许多疑难问题,理论界、行政机关和司法界对政府信息公开许多操作层面上的问题
文章对基层党员开展教育活动的重要性进行阐述,论证了在企业中开展党员教育活动的重要性和必要性。
探讨了虚拟样机技术在火炮中的初步应用.在阐述火炮虚拟样机技术基本内涵的基础上,结合火炮武器装备研制的特点,提出了一种火炮虚拟样机的总体框架,建立了火炮武器系统设计、
农村有许许多多值得学生去观察、体验、探究的乡土资源,这些都是可以用来训练学生写作的好素材。教师要充分激发学生的观察兴趣,指导学生细致观察农村生活,亲身参与实践活动,
测度与分析我国陆地边境县域旅游竞争力水平,对各边境地区在激烈的旅游竞争中正确认识自身的优势与劣势具有重要意义。本研究从边境旅游竞争力的概念入手,分析边境旅游竞争力
首次以中药材贝母为碳源,采用微波法一步合成新型荧光碳量子点。通过原料用量、微波功率和反应时间优化,获得了制备荧光碳量子点的最佳实验条件。同时通过透射电镜和X射线光
随着信息技术的快速发展,网络用户的需求也在不断提升,电信为与时俱进及时进行了构架重组.目前,我国三大电信运营商的联通、移动和电信都形成了全业务运营模式.电信要在市场