论文部分内容阅读
本文对粗糙集的模糊刻画与知识颗粒特征进行了研究.全文的主要内容如下:
Z.Pawlak于1982年提出的粗糙集理论(Rough Set Theory)<[1]>是一种处理不完全和不精确信息的新型数学工具.近年来,该理论在计算机科学及多种领域获得了成功的应用<[2、399-17]>.本文第一章对粗糙集理论的产生和发展,研究的主要问题和粗糙集的基本概念等进行了综述.
在粗糙集理论中,一个不精确的概念往往具有一个模糊的不可被明确划分的边界,而边界的存在使得粗糙集中存在着模糊性.在粗糙集理论的实际应用中,有时需要了解一个粗糙集的模糊程度,有时需要在两个粗糙集中比较哪个模糊性更大些或者比较它们之间的相近程度等等.因此寻求一个合适的度量来刻画知识的模糊性是粗糙集理论研究的一个重要方向.
Pawlak和Skowron<[47]>提出用粗隶属函数来刻画知识的模糊性.事实上,通过对象的粗糙隶属度,可以将粗糙集中的模糊性用一个模糊集来表示<[48]>,Chakra-banty<[48]>提出了一种通过这个模糊集和与它最临近的清晰集间的距离来测量粗糙集模糊性程度的方法,并给出粗糙集模糊度的一般定义和线性模糊度、二次模糊度的具体形式,研究了模糊度的基本性质:He Yaqun<[49、50]>借助这个模糊集给出粗糙集模糊性测量的熵方法,定义了粗糙集的一种模糊熵,研究了该模糊熵的基本性质;Wei Lili<[51-52]>则研究了一般关系下粗糙集的模糊性和概率粗糙集的模糊性.
针对粗糙集中的模糊性度量问题,本文第二章以粗隶属函数所导出的模糊集为工具,构造了粗糙集的线性模糊度和二次模糊度的一种新的等价形式,并将这两种形式拓展到一般二元关系的情形:研究了两个粗糙集之间的相近程度的度量,提出贴近度的概念,定义了粗糙集的Monkowski距离贴近度、Hamming贴近度、Euclid贴近度、最大最小贴近度、最小平均贴近度和格贴近度;将基于等价关系下粗糙集的贴近度拓展到基于一般二元关系下粗糙集的广义贴近度;讨论了等价关系下利用贴近度来刻画模糊度的一种方法,并由粗糙集的Monkowski距离贴近度、Hamming贴近度、Euclid贴近度、最大最小贴近度、最小平均贴近度和格贴近度,得到了粗糙集的相应的新的模糊度计算公式,利用这些公式可以很方便地度量粗糙集中的模糊性. 在粗糙集理论中,粗隶属函数不仅是描述知识不确定性和模糊性的有效工具,而且可以用来定义一个集合的上近似、下近似和边界域.在这种定义形式下,集合X的下近似RX是那些使μ<,x>(u)的值等于1的元素的全体,上近似RX是那些使μ<,x>(u)的值大于0的元素的全体,边界域bn<,R>(X)是那些使μ<,x>(u)的值介于0和1之间的元素的全体.粗隶属函数可以看成是特殊的模糊集,这样,集合X的下近似和上近似恰好是模糊集μ<,x>的核和支集.事实上,下近似是模糊集μ<,x>的1-截集,而上近似是模糊集μ<,x>的强0-截集.显然,当我们用模糊集μ<,x>描述X的下近似RX和上近似RX时,只考虑了μ<,x>的两个特殊值1和0,而没有考虑μ<,x>的其它值所提供的定量信息,这限制了粗糙集理论的实际应用.
为此,本文第三章从粗隶属函数的角度出发,利用模糊集的截集和强截集的概念,对传统粗糙集的扩展进行了研究,提出了λ-粗糙集和(a,β)-粗糙集,其基本思想都是利用μ<,x>的值所提供的定量信息,对边界bn<,R>(X)中的对象做进一步区分,其具体做法是通过设置阈值参数λ(0.5<λ≤I)和a,β(0≤β(u)的值足够大的部分对象u归入到集合的正域,使μ<,x>(u)的值足够小的部分对象u归入到集合的负域,从而使集合的边界域变小,精确性相对提高。第三章还证明了传统粗糙集、变精度粗糙集和概率粗糙集均可归结为(a,β)-粗糙集,并将基于等价关系的λ-粗糙集和(a,β)-粗糙集拓展到基于一般二元关系的广义λ-粗糙集和广义(a,β)-粗糙集.
粗糙集的所有概念和运算都是通过代数学的等价关系和集合运算来定义的,但这种代数表示的直观性较差,而且也没有知识约简的高效算法.为此,一些学者从信息论的角度对粗糙集理论进行研究,提出了粗糙集理论的信息观<[62.63]>。在
信息观中,文献[72-76]将信息熵、条件信息熵、信息量和条件信息量的概念引入信息系统和决策信息系统,导出了高效的知识约简算法.文献[11,96]建立了信息熵、粗糙熵和知识粒度之间的关系。受此启发,本文第四章从知识粒度的角度对粗糙集与它生成的知识和知识颗粒进行研究,得到了一些有用的结果。 在第四章,提出了知识颗粒的细化和粗化的概念,探讨了知识粒度的一些重要性质和定理.其中,定理4.I.4和定理4.I.5讨论了知识粒度的不变性和粗糙不变性,定理4.I.6证明了知识粒度具有单调性,定理4.1.8和定理4.1.9给出知识粒度的最大值和最小值,定理4.1.11及其推论讨论了知识颗粒细化对知识粒度的影响,定理4.1.12及其推论讨论了知识颗粒粗化对知识粒度的影响。在此基础上,还得到了知识分辨度的一些相应的性质.
从知识粒度的角度对粗糙集进行研究,给出了粗糙集中主要概念与运算的知识粒度表示,证明了知识约简在知识粒度与代数两种不同表示下是等价的,而且知识粒度表示能够导出高效的知识约简算法;利用知识粒度的概念,对完备信息系统和不完备信息系统中属性的重要性进行了定义,并以属性重要性为启发式信息,提出了一种基于知识粒度的甩来寻找完备信息系统和不完备信息系统的属性约简启发式算法,该算法的时间复杂度是多项式的,最后通过实例说明该算法是有效的。
在粗糙集理论中,论域的颗粒化表明同一个颗粒内的对象是一个整体而不是个体,因此,颗粒化带来的信息丢失导致了知识表示的粗糙性.张化光<[123-127]>对这种粗糙性产生的原因进行了研究,他定义了一个集合的基本致粗因子和基本致粗相关因子,并以这两个因子为基础,定义了一个集合的致粗域和致粗相关域,从而将边界域划分为两部分。
本文第五章对粗糙集的致粗域和致粗相关域作进一步研究,得到了致粗域和致粗相关域所满足的一些重要性质和定理:从致粗域和致粗相关域的角度重新认识粗糙集,定义了下精确集、上精确集、精确集、下不可定义集、上不可定义集、不可定义集,探讨了它们的性质;通过分析致粗域和致粗相关域的结构特征对分类精度的影响,又把粗糙集分成可近似下精确集、可近似上精确集、可近似精确集和不可近似粗糙集四类,相应地,把粗糙问题分成可近似下精确问题、可近似上精确向题、可近似精确问题和不可近似粗糙问题。对前三种粗糙问题,分别给出了近似精确化处理方法。实践证明这种近似精确化处理方法比标准粗糙集方法有更好的效果.