论文部分内容阅读
在数据挖掘和机器学习的很多算法中都是假定样本的权重相同来训练自己的分类器或产生聚类。而现实中数据的属性不一定都是同样重要的,属性的重要程度往往是要通过对于数据加权来反映的,所以一个好的加权方法在数据挖掘中是很重要的。现在对于数据权重的学习已经成为数据挖掘的一个热点问题。
SVM(Support Vector Machine)是建立在结构风险最小化基础上进行建模的,由SVM的建模思想延伸而产生的结构化SVM(简称SVM)模型被用来学习结构化输出空间,其中要求解的模型参数可以解释为结构权重向量,由SVM衍生的模型经定义相似性度量可以产生加权的聚类模型SVM;本文分析了SVM的不足,提出了改进的权重学习模型SVM。权重学习的效果是要看其能否改进聚类算法或分类算法的效果,因此本文结合SVM和 K-means聚类算法得到加权的聚类算法SVK-means,还结合SVM例与BP分类算法得到SVBP算法;本文通过对若干种分布的人工数据集和8个UCI数据集进行了实验,验证了SVM算法能改进聚类效果,而且比文献[45]中的基本加权的聚类算法WK-means要好,还验证了SVBP算法比不进行加权的BP算法在分类效果上有明显的改进。