论文部分内容阅读
知识获取就是通过一定的技术手段从海量数据库中发现潜在的、有价值的信息,并以此为人们的行为提供辅助决策。现实生活中的数据不可避免地存在重复、遗漏和不一致等问题,给知识获取的研究带来了难题。粗糙集理论作为一种处理含有噪音、不精确、不一致数据的有力工具,它不需要提供相关数据集合外的任何先验信息,适用于发现数据中隐含的规律,找出数据内部的关联关系以及特征。粗糙集的这些特性使其能很好地对知识获取的过程进行处理。经过二十多年的完善和发展,粗糙集理论成为软计算方法的一个重要分支,已经成功应用到模式识别、机器学习、决策分析和知识获取等领域。 本文简单介绍了粗糙集和知识获取的发展、研究现状以及相关的基础理论知识,着重讲述了知识获取中的数据预处理、属性约简和决策规则的提取,并结合医学数据说明知识获取在实际生活中的应用价值。本文要点如下: (1)知识获取中的数据预处理。数据预处理是知识获取的重要步骤,只有提供完整、准确、整洁的数据才能保证获取知识的效率和最终结果。文中针对决策表的补齐和离散化,介绍了数据预处理中的几种方法,如平均值填充法、条件组合完整化方法、利用领域知识填充法以及一种基于可辨识矩阵的离散化算法。该离散化算法是将区分两个实例不同的不分明关系的任务让其中一个断点来执行,这样既可以保持信息系统中不分明关系的不变,又能以最少数目的断点集把实例中所有的不分明关系区分开。 (2)知识获取中属性约简算法的研究是本文的一个重点。首先,简单介绍了几类主要的约简算法,如基本算法、基于可辨识矩阵的约简算法、基于属性依赖度的约简算法等。其次,对基于可辨识矩阵的约简算法进行了深入分析和研究,在此基础上提出了一种矩阵约简改进算法。改进算法中给出了一种属性频率函数的定义,并考虑了可辨识矩阵中项的长度对属性重要性的影响,通过比较属性函数值以及对应项的长度来确定属性的重要性。算法中将可辨识矩阵中单元素集合项中的属性直接加入约简集,否则不断选择属性重要性比较小的属性进行补运算,直到出现单元素为止。最后,给出了该算法的完备性证明并编码实现了原来的一个矩阵约简算法和该改进算法。通过引入UCI数据集对两个算法进行比较分析,实验结果表明本文提出的改进算法能得到更小、更优的约简集。 (3)知识获取中决策规则的研究。经过属性约简后得到的每一条记录其实就对应着一条规则。但是,得到的规则必须经过规则提取也就是值约简的过程才能去除规则中的冗余条件。文中介绍了一种相容决策表的规则提取算法,同时指出对于不相容决策表,隶属度、覆盖度以及阈值选择的不同将直接影响着最终决策规则的生成。对于大数据集,隶属度和覆盖度在规则提取中存在一些不足。文中指出结合可信度因子和阈值进行规则提取,并给出实例说明了其优越性。对得到的概率性规则进行研究是本文的另一个重点。通过比较得到的高概率性规则以及相关的确定性规则,可以得到一些有价值的信息。文中对这些有价值的信息进行了描述,并给出了一种较为高效的基于局部可辨识矩阵的求解算法。最后,结合医疗数据说明了其在现实生活中的应用价值。