论文部分内容阅读
粗糙集的理论基础是集合论,它只能处理离散数据,现实中大量的实型数据必须进行离散化,因而,研究连续属性的离散化具有重要的理论和现实意义,本论文对连续属性离散化的方法及不完备信息系统的规则提取进行了研究。1.研究了基于模糊聚类的离散化方法,他们都是基于传递闭包的方法,经一系列的非恒等变换,使得离散后决策表信息丢失较多。给出了一种基于摄动的模糊聚类的属性离散化方法。2.大多数对连续属性的离散化方法采用的是领域知识,不具有普遍适应性的特点,给出基于连续属性的重要性,用自组织特征映射进行优化,以决策表相容性为判决标准的连续属性离散化方法。3.针对大多数的离散化方法没有考虑不同连续属性离散化结果间的互补性和相关性,每个属性的离散化过程都是独立进行的,往往会改变信息系统不可分辩关系,容易产生不合理和冗余的离散化划分点。提出了基于系统最大依赖度的连续属性的离散化方法。4.粗糙集作为一种软计算方法,可以客观地从数据中获取知识,针对现实中存在的大量不完备的信息系统结合粗糙集理论本身,在研究分布约简、最大分布约简、分配约简基础上,给出了一种最大分布约简与规则提取的矩阵算法。本文的研究成果,对于拓宽粗糙集的理论及粗糙集在数据挖掘中的应用,有一定的理论和实践意义。