粗糙集理论在数据约简中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:shnoonkids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘面对的是大规模、超大规模的数据库或数据仓库,日益增长的海量数据,给数据挖掘提出了新的挑战。随着数据挖掘技术研究的深入与成熟,在挖掘过程中挖掘算法的效率提高越来越不明显,但是数据挖掘的预处理工作仍然没有明显的提高。于是数据预处理工作就显得越来越重要。数据预处理包括数据清理、数据集成和变换、数据约简等操作把原始的数据库或者数据仓库变换成适合挖掘的模式,为进一步的数据挖掘做准备。已有一些比较成熟的数据预处理技术,但面对日益增长的海量数据和日趋复杂的数据结构数据预处理还有很多工作要做。粗糙理论是用来处理模糊和不确定性知识的数学工具,是一种有效的软计算方法。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,利用区分矩阵可以方便地求出数据约简。面对大数据集、或复杂的数据结构,人们又提出了区分矩阵的改进算法,以及和其他学科相结合的算法,来提高数据预处理的效率。属性约简是数据预处理的一个重要环节,已经证明求所有属性的最小约简是一个NP完全问题,所以,研究也只能从提高求约简的效率上来着手。本文从基本的粗糙集理论、数据预处理的基本知识入手,详细介绍了粗糙集约简的基本算法、一种改进的算法,Jelonek提出的基于属性重要性的算法,Hu提出的基于频率函数的算法;以及与遗传算法相结合的算法、粗糙集约简的一种贪心算法,这些算法都在一定程度上改进了基本的基于区分矩阵的属性约简算法,也都有其适应的特定环境,合理地运用能够有效地对数据进行处理,进而提高数据挖掘的质量和速度。本文在总结前人的研究成果的基础上,提出了一种基于属性重要性的粗糙集约简的并行算法,该算法借鉴文献[21]赵斌等人提出的贪心算法,把求逼近精度和属性重要性的工作合理地分配到多台处理机上分别计算,然后汇总数据,进而得到属性集的约简,经过理论分析和模拟实验,证明该算法是可行的、有效的。
其他文献
在对遗传算法的基本原理、数学基础、各种主要实现技术及研究现状进行简明而深入的综述基础上,本文对一种基于罚函数的排挤小生境遗传算法进行了改进,提高了原算法的搜索效率
IP电话是目前IT业内的一个热门的话题,IP电话是指在Internet网上实时传送语音信息,作为一种方便、快捷、更重要的是价格便宜的通讯手段。随着IP网络的大规模建设及其覆盖范围不
随着计算机网络技术的应用与推广,很多单位开始重视电子形式的文件收集管理工作。近年来,我国各级档案行政管理部门在电子文件管理工作方面取得了巨大的成就,电子文件管理已经越
GPRS网络优化工作是指对正式投入运行的网络进行参数采集、数据分析,找出影响网络运行质量的原因并且通过参数调整和采取某些技术手段,使网络达到最佳运行状态,使现有网络资
机器视觉技术广泛的应用在目标跟踪领域。其中经典的目标跟踪算法有粒子滤波算法和均值漂移算法。在目标跟踪的过程中,粒子滤波算法采用非参数的蒙特卡罗方法来模拟递推贝叶斯
资源搜索问题是P2P网络的核心问题之一,也是P2P网络研究的热点。P2P的资源搜索模型,可分为四种:集中式的资源搜索模型,分布式非结构化的搜索模型,分布式结构化的搜索模型和混
IEEE 802.15.4是为低速率、低功耗、低复杂度、短距离传输节点的互联设计的工业标准。该标准被广泛运用于无线个人区域网络(WPAN)中。802.15.4的non-beacon模式支持mesh拓扑
随着互联网的发展,P2P(peer to peer)已经成为当前发展最快的网络应用技术之一。它在给人们带来巨大便利的同时,也带来了一些问题,如带宽紧缺、网络盗版、安全管理等。这些问
学位
目前,随着软件规模的增大,复杂性的提高,要开发出更快、更好、更便宜的软件,仅仅通过提升技术来生产是不够的,还要有效地利用复用,特别是较高层次上的复用。设计模式是软件工程借鉴