论文部分内容阅读
目前随着科学技术的发展,互联网数据呈现出了指数级的爆炸式增长,这就使得人工标注数据样本的代价急速增加。所以,怎样用较少的人力和财力来获取更好的效果,是人们一直在致力解决的问题。本课题旨在提出新颖有效的半监督聚类算法,解决现有半监督聚类算法准确度较小和需要一定数量标记样本的问题。针对这些问题,提出了基于密度峰值和基于协同聚类的半监督聚类算法,该方法可以在一定程度上减小成本的消耗,并能取得较高的准确率。本课题主要从以下几个方面进行了相关的研究:设计了种子对象扩展先验知识和简单约束条件提取的方法,与此同时利用密度峰值聚类算法来对数据集的聚类中心自动提取。自动提取的概念就是说不需要人工给定的K值,其算法可以较准确地计算出数据集合类簇的个数。不但如此,在这个算法进行过程中,因为种子数据(有类标的样本)是事先给定的,其具有一定的先验性知识。根据得到的种子数据之间的先验性知识,可以更加准确地对数据类簇个数和聚类中心位置进行确定。通过观察和分析种子对象之间的限制条件和约束对,并利用种子对象对类簇的聚类中心点进行标记打分。通过对所有的数据样本进行数学建模,建立数据点的多叉树或图。利用已知的种子对象来对聚类中心点进行打分标记。具体打分标记是利用迪杰斯特拉方法,找到种子对象到每个簇中心点的最短路径。找到这个路径其实只是解决问题的一个步骤,关键是利用这个最短路径上的最大距离作为衡量数据标记的标准。这其实就是利用类簇与类簇之间桥的大小,来决定类簇中心最终的类标。基于以上的研究,最后对所有样本数据进行聚类。此时可以选用基于密度的聚类算法,方便找出各种形状的聚类簇。针对单一聚类算法得到的聚类结果会存在偶然性误差,设计了协同聚类算法,其主要思路是利用种子对象约束限制来扩充训练样本集合。通过对种子对象进行多个步骤的扩充,最终利用多个聚类算法进行整个数据的聚类,此算法在实验中取得了较高的正确率和召回率。