基于粗糙集理论的属性约简与规则提取算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:gengyuefeng009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。基于数据挖掘的KDD技术近来得到人工智能领域的广泛关注。粗糙集(RoughSet)理论是波兰数学家PawlakZ.在1982年提出的一种可以分析模糊和不确定问题的数学理论。这一理论从新的视角出发对知识进行了定义,它把知识看作是关于论域的划分,并引入代数学中的等价关系来讨论知识。它提供了一整套方法,从数学上严格地处理数据分类问题,是一种比较适用的归纳、分类方法。目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应用。 利用粗糙集理论进行数据挖掘,抽取知识规则,最重要的一点就是基于粗糙集的属性约简和规则提取算法的研究。通过约简操作,降低属性的维数,提取出适用于决策支持的知识规则,是粗糙集理论的最重要应用之一。 本文从属性约简和规则提取这两个方面,认真研究了国内外相关算法,重点研究了基于属性频率函数的属性约简算法和用于规则提取的启发式值约简算法。 首先,针对基于属性频率函数的属性约简算法提出了一种改进算法。改进算法引入区分数组,代替常规算法中的差别矩阵,采用了新的属性选择方案,同时增加消冗操作,可以得到近似最小约简。 其次,在规则提取方面,提出了基于属性值重要性的启发式值约简算法。算法以属性值的重要性作为启发式信息,并以属性值核作为初始候选集合,不断判断当前候选集合是否为一个值约简,若不是则不断选择重要性最高的属性值添加到候选集合中,直到当前候选集合为一个值约简;同时提取规则,删除决策表中能够利用该规则作出决策的记录。如此反复,直到决策表所有记录删除完为止。 最后,本文对两个算法进行了实现,并采用UCI机器学习数据库中的大量数据进行了测试,证明了算法的正确性和有效性。
其他文献
高性能计算正处于一个新的快速发展时期,有两个现象值得关注,一方面,并行计算机的峰值性能提升迅速,峰值计算速度高达百万亿次的计算机系统已经被研制成功,高性价比的机群(cl
本文主要研究用于无人直升机自主着陆的计算机视觉定位技术以及相应的自主着陆方案,提出了一系列可靠实用的算法。主要的内容有以下几方面:  基于光轴与陆标平面垂直的假
随着互联网技术的快速发展,数字媒体的版权保护和内容认证等问题日益突出,数字水印(Digital watermarking)技术为解决该问题提供了一种有效的方法。半易损水印结合了鲁棒水印和
学位
随着社会各行业的日常运营对软件的依赖与日俱增,对这些软件系统的维护工作越来越重要。同时,这些软件系统是重要的可复用资源,越来越多的软件企业关注如何更充分地重复使用这些
随着信息技术的不断进步和发展,人们对于智能建筑中的照明要求越来越高,然而目前我国大多数建筑物在照明控制上所使用的协议不一,在系统集成以及系统间的互操作上仍存在很多
随着汽车工业的快速发展,车辆信息系统已经成为汽车电子技术的重要组成部分。车辆信息系统是一个把汽车上的各种电子设备通过车辆网络与周围世界联网,构成以车为核心,以相关
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格不仅提供利用强力计算机解决巨大挑
H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图象编码专家组)的联合视频组(JVT:jointvideoteam)开发的一个新的数字视频编码标准,它既是ITU-T的H.264,又是ISO/IEC
近年来,随着数据库技术的发展和数据库规模的日益扩大,人们希望从已有的数据中提炼出有用的信息服务于决策者,决策支持系统应运而生。数据仓库技术、OLAP技术和数据挖掘技术对决
随着全球性市场竞争的日趋激烈,企业迫切需要采用先进的生产管理理论和技术来指导企业的生产。纺纱行业是一个有悠久历史的传统制造业,由于工序多,设备复杂,劳动密集型占主导等原