论文部分内容阅读
粗糙集理论是由波兰数学家Z.Pawlak在1982年提出的,是继概率论、模糊数学、证据理论之后又一种处理不确定性的有效数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理不精确、不完整和不一致的信息。并从中发现隐含的知识,揭示潜在的规律。数据挖掘和知识发现是从现存的数据库、数据仓库或其它信息库中挖掘有价值的知识的过程。粗糙集理论是一种新的数据挖掘技术。
本文就粗糙集理论及其在数据挖掘中的应用方法进行了较为深入系统地研究。重点研究了扩展粗糙集模型:基于连续属性的粗糙集模型及其约简算法;不完备信息系统下粗糙集模型及其约简算法;以及更一般的集值信息系统及其约简算法。主要研究工作包括:
1.对近年来粗糙集理论及其相关的数据挖掘方法进行了综述。
2.深入研究了各种常见的粗糙集模型及其性质;针对信息系统的多样性,给出了基于粗糙集的刻画方式。
3.属性约简是粗糙集理论研究的核心问题之一,现已证明,寻找信息系统的最小约简是NP-hard问题。目前已经提出了一些有效的算法,然而其算法复杂度都比较高,因此还需要进一步研究属性约简的有效算法,本文就常见粗糙集模型,给出了一般形式的基于代数或信息论下的改进属性约简算法。
4.研究了不完备信息系统粗糙集模型,并提出了基于限制容差关系的属性约简算法;提出了集值信息系统及基于其上的属性约简算法;研究了连续属性的信息系统及属性约简算法。并且针对以上提出的模型及算法,给出了完整的实例,进一步验证了其应用于实际系统的有效性和实用性。