论文部分内容阅读
从数据中抽象分类模型是是知识发现的重要研究内容,而实际数据所蕴涵的不确定性、不一致性和随机性是分类知识发现面临的主要困难。粗糙集和模糊集都可以处理不确定性和不精确性问题,但是两者的侧重点不同。粗糙集研究的是不同类的集合对象之间的不可分辨性,而模糊集研究的是类与类边界的重叠性。模糊集的隶属函数大多是专家凭经验给出,而粗糙集不需要数据之外的任何先验信息。粗糙集和模糊集在处理不确定性问题上各有所长,将两者有机结合可以更好地处理实际问题。本文将连续数据作为研究对象,以分类知识发现为目的,对粗糙集和模糊集的集成方法展开了一系列研究。主要内容如下:1.根据模糊分类模型在处理分类问题上的优势,结合决策粗糙集在处理不一致性和随机性数据中的优点,提出了一种新的模糊分类模型构造方法。先对决策粗糙集模型的性质进行研究分析,在此基础之上提出了属性约简的概念及相应的算法。首先采用模糊c均值聚类算法对连续属性值离散化同时对输入空间进行模糊划分;然后利用两步搜索策略计算离散化决策表的约简集,删除冗余的条件属性;从约简后的决策表中提取决策规则,再将决策规则转换成模糊分类规则,从而建立了模糊分类模型。该模糊分类模型直接基于对数据的分析,具有结构简单、语义解释性好和泛化能力强的优点,并且不需要再利用学习算法对参数进行调节。2.指出Lingras粗k均值聚类算法的一些缺点,讨论分析了这些缺点的产生原因,在此基础上提出了一种改进的粗k均值聚类算法。改进的算法通过定义潜能来确定初始的聚类中心,并将Lingras粗k均值聚类算法计算上下近似所用的绝对距离改为相对距离。改进的算法初始聚类中心位置设置合理,对类边界的划分更加恰当,聚类效果好,性能稳定。基于改进粗k均值聚类算法,提出了一种新的模糊分类模型。采用改进粗k均值聚类算法对输入空间进行聚类从而构建初始的模糊分类系统,再利用遗传算法对初始模糊分类模型的前件参数进行优化,从而得到最终的模糊分类模型。该模糊分类模型实现了参数的准确辨识,具有较高的精度和泛化能力。3.针对决策粗糙集只能处理离散数据的局限性,提出了能够直接用于连续数据的模糊决策粗糙集模型。将决策粗糙集模型严格不可分辨关系放松至模糊T-等价关系,从模糊隶属度角度定义条件概率,构造新的概率包含关系,在此基础上建立了模糊决策粗糙集模型。还研究了模糊决策粗糙集模型的性质,并提出了模糊决策粗糙集模型属性约简的定义及相应的约简算法。为进一步研究模糊决策粗糙集在分类建模中的应用提供了理论基础。4.基于前面提出的模糊决策粗糙集模型,设计了一种基于约简的选择性多分类器集成系统。基于模糊决策粗糙集模型,利用两步随机属性约简算法,计算得到原始数据的多个不同约简。在每组约简上训练一组个体分类器,再利用遗传算法从每组个体分类器中选择部分按照相对多数投票法进行集成。该多分类器集成系统利用了不同约简所提供的互补信息,个体分类器之间的差异较大。实验研究的结果表明本文提出的多分类器集成系统具有较好的分类能力,且被集成的个体分类器数目较少。