论文部分内容阅读
近年来,信息量呈爆炸式增长趋势,海量数据的出现已经成为常态。与此同时也出现数据庞大而知识面对传统的决策系统无法满足现在人们的迫切需求,数据挖掘技术正是解决这一问题的有效方法之一。聚类分析是数据挖掘领域的一个重要分支,半监督聚类算法更是近几年来的研究热点。半监督聚类方法融合有监督学习和无监督学习的优点,既充分利用了少量已标记的数据信息对聚类过程进行约束指导,又不需要对大量的数据进行标记,更贴近实际情况,容易实现。kmeans算法是最早一批被扩展到半监督领域的聚类算法之一,通过引入少量监督信息,能够大大提升聚类准确度和迭代效率。Seeded-kmeans算法是一种有效的半监督kmeans算法,它通过对标记样本的利用完成初始中心点的优化,但是其对于多维数据将各维数据重要性等同视之,对孤立点和噪声点敏感,这些缺点限制了它的应用。本文主要针对Seeded-kmeans算法进行系统研究和改进,具体的研究工作安排如下:(1)对聚类和半监督聚类的背景知识进行了较详细的介绍,包括其基础理论、历史背景、研究现状、发展趋势等。为了能更好地研究半监督kmeans聚类算法,本文对kmeans聚类算法进行了相关介绍,然后举例介绍了两种常用的半聚类kmeans聚类算法。(2)Seeded-kmeans算法的一个缺点是对各属性的重要性评估不足,针对于此,本文引入了基于信息增益的特征选择方法,对Seeded-kmeans算法优化、改进。其算法思想是通过对seed集的充分运用,采用信息增益的方法计算出各属性的权值,然后再运用Seeded-kmeans算法进行聚类。此外,针对Seeded-kmeans算法的对孤立点和噪声敏感的缺点,在Seeded-kmeans算法的基础上加入密度检测,通过计算seed集样本点的密度参数,并对其进行密度检测,不满足所划定临界值的样本点将被视为噪声点进而从seed集中删除,从而提高Seeded-kmeans算法的抗噪能力。(3)将上述信息增益的特征选择方法和密度检测方法进行综合,对Seeded-kmeans算法进行两方面改进,以期取得高精度的聚类结果和较强的抗噪声能力。实验表明,该算法能够获得更优的聚类效果和时间性能,并提升抗噪声能力。最后对本课题的工作做了总结,并进一步展望了下一步的研究方向。