论文部分内容阅读
人类进入信息化时代,每天的生活工作中,都会产生大量的数据信息,社会活动急需一种处理工具,可以从大量表面看上去杂乱无章、冗余多同时存在数据噪声干扰的大量数据“堆”中删掉没有价值无用的数据,同时获得有用的可以帮助人类做出分析决策的决策规则。粗糙集在处理这方面的问题具有许多优势,因此受到越来越多人的关注并且得到广泛的应用。经典的粗糙集模型是建立在严格的等价关系基础上的等价类划分,所以处理对象只能是离散型数值的决策表。然而现实生活生产工作中产生的大量数据是连续型数值,需要进一步探讨。本文首先给出了贪心算法和基于信息熵的离散化算法,分析了算法的优缺点,在此基础上,重点分析了基于属性重要度的连续数据离散化算法,给出了一个连续型数据决策表用来验证算法。然后给出了直接在决策表中对数据进行处理,提取决策规则以及属性的相对约简的计算方法。此过程中通过设置系统容许误差以及与模糊集结合,计算系统的最大容差类和区分函数,得出决策规则以及相对约简。最后通过具体决策表验证算法的有效性。同时对数据表中存在数据缺失以及数据遗漏的不完备数据表进行了处理,提出了针对连续型决策表的扩展区分矩阵算法,通过矩阵各元素间的逻辑与或运算,得出相对约简和核属性,并用具体决策表验证算法的有效性。最后通过数据填充算法,将不完备数据表转化为完备数据表,提出了基于树结构的约简算法,处理过程浅显易懂,且结果能够得到决策表的所有属性约简。