论文部分内容阅读
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要.粗糙集理论(Rough Sets)就是在这样背景下不断发展起来的一种用于不精确、不确定数据挖掘与处理的新型数学理论.粗糙集理论也凭借其独特的优势而在KDD领域中具有越来越重要的地位.属性约简是粗糙集理论研究的核心问题之一,本文首先介绍了Pawlak粗糙集模型以及决策表、可辨识矩阵和约简等基本概念,为后面章节中的属性约简算法打下了理论基础.现已证明,寻找一个决策表的最小约简是NP-难问题,在人工智能中,解决这类问题的方法一般是使用启发式算法.本文把属性重要性作为启发式信息,以核属性为寻求约简的起点,通过对算法中加入启发式信息,减少了搜索空间.给出了相对可辨识矩阵的概念,并以相对可辨识矩阵为基础,对属性约简的基本算法做出了改进,把本来是对可辨识矩阵进行逻辑运算的计算转化成代数运算,在一定程度上简化了计算,提高了约简效率.后面又提到了基于信息熵的相对属性约简算法.并在文章的最后提出了一种新的基于灰色关联度的属性约简算法,实验证明,该算法可以获得令人满意的约简.