面向不确定数据的最近邻分类方法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:z46810560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是数据挖掘和机器学习的基本任务,已经在众多应用领域里取得了巨大进步。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对测试数据进行分类。尽管这些测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。传统分类技术通常用于处理具有确定的特征向量值的数据,数据的不确定性在学习问题辨析上被忽略了。然而必须指出由于数据可能包含错误或者只有部分被存储,所以在真实数据上有很多方面会产生数据的不确定性。如何高效的处理带有误差的不确定性数据依然是数据挖掘领域里的一项挑战。虽然传统的数据分类算法往往都假定采集到的数据是精确的,不存在任何误差,但是,在大部分的应用领域中,时常有采集样本自身存在误差,仪器的精度误差情况或是出于保护隐私的原因需要对采集的数据进行某些干预,从而影响数据自身是不确定的。因此,不确定性数据的特征值就不是某个单一的值,而是存在于某个区间内,并且服从某个概率分布。目前已经可以扩展某些传统的经典分类算法,比如决策树,支持向量机等,用来处理不确定性数据。然而本文在处理不确定性数据分类的问题时,鉴于传统的分类方法在处理不确定性数据时可能返回一个概率接近于零的类,即可能无法保证返回类的质量,因此基于将最近邻规则扩展到处理不确定性数据的情况是可行的前提下,提出了不确定性最近邻规则。不确定性最近邻规则依赖于最近邻的类的概念而不是最近邻的对象。测试对象的最近邻类是取可以满足它最近邻类中的最大概率值的类。实验证明前者的概念要比后者在处理不确定性数据问题上更有利。设计一个用来对测试对象进行分类的有效的最近邻分类算法。给出的实验结果,表明不确定最近邻规则是有效的和高效的分类不确定性数据方法。
其他文献
MDA是从传统软件开发转向基于可重用技术的以模型驱动架构的方法学。其中引入了标准的建模规约,提供了高效的建模技术,可以为各种不同的企业领域进行建模;它提供了转换技术,
面瘫,即由面部功能障碍引起的面部表情肌肉瘫痪,是一种临床常见病,不仅影响患者的表情运动等生理功能,而且影响患者的身心健康。对面瘫患者的面部运动功能进行分级对面瘫的治
河道流量预报是一项可以减免损失的非常重要的防洪非工程措施,也是一项合理利用水能、水资源的非工程措施。正确及时的预报可以使工程合理调度,可以使决策者及时实施防洪措施,从
随着语义Web技术研究的发展,本体应用越来越广泛,但是由于不同用户构建的本体在形式上、结构上的差异,导致同领域内本体在重用与交流方面存在困难,同时也限制了本体集成研究
本文研究模糊离散事件系统(FDES)的监督控制和错误诊断,以及概率离散事件系统(SDES)的错误诊断,具体包括以下四个方面的内容:部分可观测的FDES监督控制和分散监督控制,FDES的错误
随着电脑的日益普及,加上互联网的迅猛发展,人们传递信息摆脱了以往通过写信或者电报的方式,越来越流行的是通过图像去获取现实世界中的信息。噪声可以理解为妨碍人的视觉或
面对快速多变的业务协作需求,人们开始关注其计算机应用系统的按需、即时构造的能力,以满足动态应用集成的要求。现有的面向服务的计算技术尚不具备这种能力,不足以满足动态应用
随着Internet的不断发展,网络上的在线数据库越来越多,用户可以通过Web站点提供的查询接口访问数据库中的信息,这种在Web中可通过查询接口访问的在线数据库被称为Web数据库。
纹理合成与编辑的研究在计算机视觉、图像处理及计算机图形学领域都占有重要的地位,有着非常广阔的应用前景,是一个比较活跃的研究领域。传统的纹理合成方法都是基于二维的纹
随着医学影像技术的发展,基于医学影像技术的图像配准发挥着越来越重要的作用并成为近年来的研究重点、热点。医学图像配准主要将CT图像、核磁共振MRI、PET(Positron Emissio