论文部分内容阅读
经典粗糙集模型分类要求严格按等价关系进行,不存在某种程度上的包含关系,在实际应用中,缺乏对噪声数据的适应能力。为了克服这个缺点,W.ziarko提出一种变精度的粗糙集模型,引入了变精度β因子,允许上近似集和下近似集存在一定的分类误差,对噪音数据具有一定的容错能力,更加符合实际应用的需要。自引入变精度粗糙集模型以来,粗糙集理论的实际应用得到了较快的发展,变精度粗糙集模型是对经典粗糙集理论的扩展。 变精度粗糙集模型虽然可以提高粗糙集模型的抗噪声能力,但是并没有考虑到每个对象的重要性问题。通常粗糙集模型在对决策信息系统进行数据预处理后,往往是把相同的规则直接合并成一个规则,对不同对象的重要性问题未加考虑。而在现实生活中,决策信息系统中一个规则仅出现一次或出现多次意义可能是完全不同的。因此,为了能更加适用于实际生活中的数据,在变精度粗糙集理论研究的基础上,引入对象重要性的概念,改进变精度粗糙集模型,并对基于改进后模型的属性约简算法进行深入研究。 本文的主要工作如下: (1)在对经典粗糙集及变精度粗糙集模型进行研究的基础上构建了一种基于对象重要性的变精度粗糙集模型(OI-VPRS),对变精度粗糙集模型的分类错误率、包含度、近似空间及属性约简进行了重定义,并给出该模型的一些性质和定理,经典粗糙集模型和变精度粗糙集模型可视为该模型的一个特例。通过对某决策表分别采用经典粗糙集模型、变精度粗糙集模型和OI-VPRS模型进行计算,结果表明:在相同的分类误差水平上,该模型在分类质量和抗噪音能力方面都较前两个模型有所提高,该模型不仅具有容错性,并较好地体现了决策表中每个对象的重要程度,能合理地对现实数据进行解释。 (2)对OI-VPRS模型下的属性约简算法进行深入研究。首先,在对经典粗糙集模型下基于属性依赖度的约简算法进行研究的基础上,提出了OI-VPRS模型下的基于属性依赖度的约简算法。算法采用了OI-VPRS模型下属性依赖度的计算方法,并且为了得到更简化的结果,引入了依赖度误差因子ε。UCI实验结果表明,当数据集中各对象的重要性均匀分布时,能够得到与变精度模型相近的约简结果和近似分类质量。当数据集中对象重要性存在较大的差异时,基于OI-VPRS算法结果比变精度模型约简结果更加简化,同时分类质量也较变精度粗糙集模型有所提高。其次详细分析了分类误差因子β和依赖度误差因子ε的取值对约简的影响,实验结果表明β取值增大,决策表的近似分类质量增大,得到的约简集中属性个数减少,ε取值越大,得到的约简越简化,算法运行时间也越短。 (3)胡可云算法研究表明利用属性频率求属性重要性的计算量要优于利用属性依赖度求属性重要性的计算量,因此,提出一种将属性频率和对象重要性作为启发信息的约简算法。算法首先计算决策表的可辨识矩阵,利用可辨识矩阵中属性出现频率和属性所区分的对象的权值重新定义了属性重要性函数,并且在每添加一个属性到约简集后,都将可辨识矩阵中含有该属性的项删除,避免了属性计算的重复性。该算法采用贪心的思想能够保证找到一个约简,并且时间复杂度较基于属性依赖度算法的时间复杂度低。实验结果表明,当对象和属性个数较大时,该算法的运行时间要明显优于基于属性依赖度的算法运行时间。