聚类分析中基于投影的k均值算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:isaxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是机器学习领域内广泛被研究的知识领域,是将人工智能技术和数据库技术紧密的结合,让计算机能帮助人们从大数据量的数据库中智能地、自动地获取出有价值的知识模式和规律信息,以满足人们不同应用的需要。K均值算法作为聚类分析中应用极其广泛的一个算法,具有伸缩性好,效率高的优势。但是k均值算法这样的划分算法依赖k值的确定,初始聚类中心的选择以及不同样本对象条件下的相似度度量的选取。而且对于孤立点的影响很敏感,少数偏远孤立点就会造成很大影响。在运算效率方面对于大量高维数据,最大的阻碍在于欧氏距离定义下的距离计算。本文也提出了关于距离计算的效率改进和孤立点的分离。   针对k均值算法的各个不足之处,本文分别研究了其对应的改进算法。包括对于初始聚类中心选取的改进方法来进行初始中心点的选取,聚类中心和聚类均值点分离的方法来减少孤立点的干扰以及基于核函数的改进方法。对于效率提升方面提出了基于投影的改进方法,结合投影降维的理论对k均值算法进行改进,对所有待聚类的向量在选定的方向上计算投影距离,建立一个所有向量的投影距离的索引.在每次迭代重新分配点时进行一次投影距离的判断,排除投影距离相距过大的点,从而减少距离的计算次数。并将对于所有类都投影距离过大的点设置为孤立点.这样不仅提高了算法效率并且减少孤立点对于本身算法的影响。最后数据测试结果也显示效果不错。  
其他文献
数论中的指数和,Kloosterman和,Guass和,Ramanujan和等和式都有紧密的联系.近年来,很多学者深入的研究了这些问题,并且获得了很多优秀的研究成果.本文运用简化剩余系,三角和,Dirichl
本文主要从数学上研究了无形体病的病原学和流行病学,并建立了相应的数学模型.我们分别考虑了具有Holling-II功能反应的三种群无形体病模型和具有Holling-II功能反应的两种群
分布近似在概率论与数理统计中是一个重要的分支,它在统计学科研和实践中都是很重要的工具。Stein方法是一种很有用的可用于分布近似的方法。Stein方法可用于考察随机变量的
数据挖掘是从数量庞大的、随机出现的、客观存在的、不完全的并充满噪声的数据中提取和发现有价值的信息,从而为商务分析与决策、自然科学理论、人文地理等提供有效的技术支持
图像分割是对图像进行一个预处理的过程,是图像处理的关键步骤,其分割结果将直接影响后期图像分析。传统的图像分割有边缘检测法、阈值分割法、区域分割法和聚类分割法。根据每