基于粗糙集理论的知识获取研究及应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:catscafe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识获取就是通过一定的技术手段从海量数据库中发现潜在的、有价值的信息,并以此为人们的行为提供辅助决策。现实生活中的数据不可避免地存在重复、遗漏和不一致等问题,给知识获取的研究带来了难题。粗糙集理论作为一种处理含有噪音、不精确、不一致数据的有力工具,它不需要提供相关数据集合外的任何先验信息,适用于发现数据中隐含的规律,找出数据内部的关联关系以及特征。粗糙集的这些特性使其能很好地对知识获取的过程进行处理。经过二十多年的完善和发展,粗糙集理论成为软计算方法的一个重要分支,已经成功应用到模式识别、机器学习、决策分析和知识获取等领域。  本文简单介绍了粗糙集和知识获取的发展、研究现状以及相关的基础理论知识,着重讲述了知识获取中的数据预处理、属性约简和决策规则的提取,并结合医学数据说明知识获取在实际生活中的应用价值。本文要点如下:  (1)知识获取中的数据预处理。数据预处理是知识获取的重要步骤,只有提供完整、准确、整洁的数据才能保证获取知识的效率和最终结果。文中针对决策表的补齐和离散化,介绍了数据预处理中的几种方法,如平均值填充法、条件组合完整化方法、利用领域知识填充法以及一种基于可辨识矩阵的离散化算法。该离散化算法是将区分两个实例不同的不分明关系的任务让其中一个断点来执行,这样既可以保持信息系统中不分明关系的不变,又能以最少数目的断点集把实例中所有的不分明关系区分开。  (2)知识获取中属性约简算法的研究是本文的一个重点。首先,简单介绍了几类主要的约简算法,如基本算法、基于可辨识矩阵的约简算法、基于属性依赖度的约简算法等。其次,对基于可辨识矩阵的约简算法进行了深入分析和研究,在此基础上提出了一种矩阵约简改进算法。改进算法中给出了一种属性频率函数的定义,并考虑了可辨识矩阵中项的长度对属性重要性的影响,通过比较属性函数值以及对应项的长度来确定属性的重要性。算法中将可辨识矩阵中单元素集合项中的属性直接加入约简集,否则不断选择属性重要性比较小的属性进行补运算,直到出现单元素为止。最后,给出了该算法的完备性证明并编码实现了原来的一个矩阵约简算法和该改进算法。通过引入UCI数据集对两个算法进行比较分析,实验结果表明本文提出的改进算法能得到更小、更优的约简集。  (3)知识获取中决策规则的研究。经过属性约简后得到的每一条记录其实就对应着一条规则。但是,得到的规则必须经过规则提取也就是值约简的过程才能去除规则中的冗余条件。文中介绍了一种相容决策表的规则提取算法,同时指出对于不相容决策表,隶属度、覆盖度以及阈值选择的不同将直接影响着最终决策规则的生成。对于大数据集,隶属度和覆盖度在规则提取中存在一些不足。文中指出结合可信度因子和阈值进行规则提取,并给出实例说明了其优越性。对得到的概率性规则进行研究是本文的另一个重点。通过比较得到的高概率性规则以及相关的确定性规则,可以得到一些有价值的信息。文中对这些有价值的信息进行了描述,并给出了一种较为高效的基于局部可辨识矩阵的求解算法。最后,结合医疗数据说明了其在现实生活中的应用价值。  
其他文献
随着单点登录协议的飞速发展和广泛应用,登录协议实施过程中的安全问题也越来越受到重视。近年来,BrowserID认证协议作为其中的佼佼者,在越来越多的网站上使用,但同样造成的
经过几十年来的实践证明,IPv4协议无论是在技术上还是发展速度上都是一个非常成功的协议,为现代科技做出了不可抹灭的贡献。但是,随着现代科技和生产需求的不断发展与增加,最初的
软件复用可在软件开发过程中避免重复劳动,被视为解决软件危机,提高软件生产率和质量的现实可行途径。它作为软件工程的主要研究课题之一,被认为是使软件开发真正走上工程化
在过去几十年里,大规模和超大规模并行性集群处理取得长足进展,同时由于各种原因,这些机器多采用分布主存或分布式共享主存结构,各厂商开发了针对特定硬件平台的消息传递包或
Web Service的主要目标是在现有的各种异构平台的基础上构筑一个通用的、与平台无关、语言无关的技术层,各种不同平台上的应用依靠这个技术层来实施彼此的连接和集成。为了让
随着互联网技术与应用的迅速发展,Web服务技术的应用已经成为一种趋势,Web服务将传统的功能封装成跨越平台的统一接口提供给用户;另一方面业务功能的复杂化,从B2C到B2B业务的
根据最新的研究发现,软件测试的成本已经占到了整个开发成本的40%到60%。人们希望能降低测试成本,同时进一步缩短软件的开发周期,测试人员也希望摆脱简单重复的测试工作。由于在一
当今,生物科学技术迅猛发展,无论从数量上还是质量上,都极大地丰富了生物科学的数据资源。计算机技术和网络技术日益渗透到生物科学的各个领域,一门崭新的,拥有巨大发展潜力的学科
随着高性能计算和互联网技术的不断发展,数据的规模出现快速增长,系统面临的数据存储和管理需求也越来越高。在计算机系统中,现在的处理器的性能得到快速提高,但存储能力却成为了
流媒体技术的出现使得多媒体通过网络从媒体服务器上向终端的持续实时传输成为可能。目前的大部分流媒体软件是基于C/S模式,服务器端的负载与流量等瓶颈制约了系统的扩展性和