论文部分内容阅读
数据挖掘是机器学习领域内广泛被研究的知识领域,是将人工智能技术和数据库技术紧密的结合,让计算机能帮助人们从大数据量的数据库中智能地、自动地获取出有价值的知识模式和规律信息,以满足人们不同应用的需要。K均值算法作为聚类分析中应用极其广泛的一个算法,具有伸缩性好,效率高的优势。但是k均值算法这样的划分算法依赖k值的确定,初始聚类中心的选择以及不同样本对象条件下的相似度度量的选取。而且对于孤立点的影响很敏感,少数偏远孤立点就会造成很大影响。在运算效率方面对于大量高维数据,最大的阻碍在于欧氏距离定义下的距离计算。本文也提出了关于距离计算的效率改进和孤立点的分离。
针对k均值算法的各个不足之处,本文分别研究了其对应的改进算法。包括对于初始聚类中心选取的改进方法来进行初始中心点的选取,聚类中心和聚类均值点分离的方法来减少孤立点的干扰以及基于核函数的改进方法。对于效率提升方面提出了基于投影的改进方法,结合投影降维的理论对k均值算法进行改进,对所有待聚类的向量在选定的方向上计算投影距离,建立一个所有向量的投影距离的索引.在每次迭代重新分配点时进行一次投影距离的判断,排除投影距离相距过大的点,从而减少距离的计算次数。并将对于所有类都投影距离过大的点设置为孤立点.这样不仅提高了算法效率并且减少孤立点对于本身算法的影响。最后数据测试结果也显示效果不错。