基于半监督佳点集和Leader和K-means聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:luozd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术与互联网的飞速发展,数据库应用规模、范围和深度的不断扩大,人们生产和收集数据的能力的不断提高,导致现实生活中各个领域的数据量以前所未有的速度海量增长着。面对如此庞杂的海量数据,如何找出这些大规模数据之间的内在关联性,从而提取出有用的信息,以建立供人们所用的知识资源,一直是研究者们的热点课题。   数据挖掘是指从大量数据中发现隐藏的、有效的、新颖的、对决策有潜在价值的和最终可被理解的模式的过程,其在现实生活的许多领域都有着广泛的应用。聚类分析是数据挖掘三大领域之一,业已被广泛研究了几十年,至今不论在理论还是方法上都取得了丰硕的研究成果。其中以基于划分方法中的K-means聚类算法最为经典。   K-means聚类算法的思想简单易行,而且时间复杂性接近线性,同时对大规模数据的挖掘具有高效性和可伸缩性。然而该算法存在着固有的缺陷:如算法对初始中心点敏感;聚类结果易陷入局部最优;算法适用于数值型数据和一般只能发现球状簇等。   本文主要研究和分析了经典的K-means聚类算法,给出其优缺点和现有的一些改进方法。针对上述谈到的K-means聚类算法的不足,在聚类算法被研究的这几十年,许多学者都给出了相应的改进方法和策略,尤其针对前两种缺陷的改进算法举不胜举。而本文也意在探讨K-means算法的初始中心敏感性,并结合了半监督学习、Leader方法和佳点集理论,提出两种新的初始中心选取方法。   论文所做的主要工作包括:   1、基于半监督和Leader方法,提出了一种新的选取K-means聚类算法初始中心的方法,即S_SLK算法。利用监督信息来改善无监督学习的性能,结合能够保持数据对象本身分布特性的Leader方法优化了K-means聚类算法的初始中心,并改善了由此导致的聚类结果不够稳定的缺陷。   2、运用佳点集理论能够得到比随机选取更好的点的优点,再次结合Leader方法,提出一种新的改进K-means的聚类算法。佳点集理论和Leader方法的结合方式从两种算法来体现,分别称为KLG和KGL算法。   3、将改进的KLG和KGL算法分别与传统算法和文献中的算法做了相应的比较,并尝试了在K-means算法中仅引入佳点集理论或Leader方法后的效果,同时与KLG和KGL算法做了比较,实验结果和一系列的比较结果表明,改进后的算法具有一定的可行性和有效性,且最终可得出KGL算法优于其他几种算法。
其他文献
随着当前信息技术的发展,信息系统经过长期运转而产生了大量的历史数据,这些数据是提供给各种专业计算的基础。大部分的信息系统长时间内只是在局域网范围内部运行,导致信息系统
复杂网络作为各种真实网络的抽象研究模型,已涉及到物理学、生物学、医学、计算机科学等各大领域。复杂网络的建模算法,统计属性研究和实际应用探索是该课题的主要研究方向。
在信息备份还原范畴之中,存储分区的备份与还原具有重要意义。存储分区备份还原软件,具有易于安装、操作简单等特点。当系统崩溃后,通过这类软件能快速简捷地还原到系统正常
随着数字化信息技术的迅猛发展,虚拟现实技术作为计算机领域的一个重要分支,其应用研究越来越受到人们的关注,而虚拟场景绘制技术最近几年在国内外一直是研究的核心问题,并在教育
网格技术被誉为下一代的互联网应用,它将网络中的节点进行互联,充分实现网格系统中信息和资源的共享,消除网络中的资源孤岛和信息孤岛。网格信息服务是网格系统的核心和基础
随着信息化的发展,企业开发了各种业务系统,但由于各个业务系统采用了不同的开发语言、不同的运行平台等原因,导致系统之间无法实现数据共享和交互。随着市场竞争越来越激烈,综合
本文提出了一种能在较少改变人脸细节特征的前提下,显著地提高人脸吸引力的三维人脸模型的对称性与比例几何美化算法。首先,在三维人脸模型上指定57个特征点,并对关键特征点
从一开始的信息匮乏到现在的信息泛滥,万维网经历了巨大的变化,互联网上的信息量正以一种难以想象的速度扩张,人类从未面临如此海量的信息,人们所面临的问题已不是没有足够的
ETC(Eleetronic Toll Colleetion)电子费用收集系统,是针对智能交通系统中不停车自动收费的应用场景,通过将射频通信技术和计算机技术以及传感技术进行融合,实现交通领域自动收
当前,海量文本大部分都采用向量空间模型来描述。向量空间模型假定代表各分量的词条间不存在语义关联。同时,由于文本向量的高维性、稀疏性等问题,降维处理已经成为文本特征提取