论文部分内容阅读
数据分类是数据挖掘和机器学习的基本任务,已经在众多应用领域里取得了巨大进步。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对测试数据进行分类。尽管这些测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。传统分类技术通常用于处理具有确定的特征向量值的数据,数据的不确定性在学习问题辨析上被忽略了。然而必须指出由于数据可能包含错误或者只有部分被存储,所以在真实数据上有很多方面会产生数据的不确定性。如何高效的处理带有误差的不确定性数据依然是数据挖掘领域里的一项挑战。虽然传统的数据分类算法往往都假定采集到的数据是精确的,不存在任何误差,但是,在大部分的应用领域中,时常有采集样本自身存在误差,仪器的精度误差情况或是出于保护隐私的原因需要对采集的数据进行某些干预,从而影响数据自身是不确定的。因此,不确定性数据的特征值就不是某个单一的值,而是存在于某个区间内,并且服从某个概率分布。目前已经可以扩展某些传统的经典分类算法,比如决策树,支持向量机等,用来处理不确定性数据。然而本文在处理不确定性数据分类的问题时,鉴于传统的分类方法在处理不确定性数据时可能返回一个概率接近于零的类,即可能无法保证返回类的质量,因此基于将最近邻规则扩展到处理不确定性数据的情况是可行的前提下,提出了不确定性最近邻规则。不确定性最近邻规则依赖于最近邻的类的概念而不是最近邻的对象。测试对象的最近邻类是取可以满足它最近邻类中的最大概率值的类。实验证明前者的概念要比后者在处理不确定性数据问题上更有利。设计一个用来对测试对象进行分类的有效的最近邻分类算法。给出的实验结果,表明不确定最近邻规则是有效的和高效的分类不确定性数据方法。