基于Rough Set的海量数据挖掘算法研究

来源 :重庆邮电学院 重庆邮电大学 | 被引量 : 0次 | 上传用户:qiaobianhongyaogqw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。处理海量数据一直是数据挖掘要解决的一个重要问题。本论文结合RoughSet理论提出了一种直接处理海量数据全集的方法,并研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。 经典的RoughSet算法要求数据常驻内存,因此不能有效地处理海量数据。本论文首先提出了类分布链表的结构来表示一个属性组合对样本空间的分类情况,类分布链表可以通过使用数据库技术对原始数据集进行直接分类来获取。通过类分布链表,本论文改进了一组RoughSet知识约简算法,从而使它们能够直接处理海量数据集。类分布链表的方法还可以作为一种框架扩展到其它的RoughSet算法来提高这些算法的可伸缩性,同时不影响它们的正确性。 在分布式处理海量数据中,关键的第一步就是如何有效地将原始海量数据集分割成许多可以在单机上处理的数据子集。本论文根据RoughSet的特点提出了最佳分割的定义,然后提出了一种海量数据分割算法来寻找最佳分割。通过实验测试证明结合本文提出的数据分割算法的分布式处理方案能够快速地处理海量数据,而且与处理整个数据集的算法相比,正确性损失不大。
其他文献
传统的认证机制是基于用户名和密码的,用户要进入系统就必须输入相应的帐号才可以进入。对于一个要访问处于不同系统中资源的用户,他每进入一个系统就要登录一次,这无疑会耗费大
本文在前人研究成果的基础上,对基于免疫原理的计算机入侵检测技术做了进一步的理论探讨与研究,并且通过分析和对比指出原有的否定选择算法存在的缺陷和不足: (1) 原有算法中
目前,国内外普遍采用WEB应用服务器技术,构建出以浏览器作为窗口,WEB应用为中间件,数据集中存放的模式。根据企业规模和软件使用的实际情况,采用微软.NET的技术,VB.NET编写业务逻辑
本文主要阐述了一个基于ⅡP(独立智能外设)的VoiceXML解析器平台的应用与实现过程。首先,介绍了系统产生的背景,包括语音应用技术的蓬勃发展、智能网的现状和不足。然后对Voice
图作为一种复杂的数据结构被应用到各个领域中,如分子化学和社会网络领域,图查询作为图数据库管理的一项重要课题在近些年来受到国内外学者的广泛关注。图查询问题是在图数据
视频是集图像序列、图像、文字等为一体、被人们广泛使用的一种综合性媒体,在当今网络技术高速发展、各种媒体信息大量涌现的背景之下,为了实现对多媒体信息的高效访问,多媒体信
随着计算机图形学的飞速发展,以非真实感为目标的图形学越来越受到人们的重视。非真实感绘制是计算机图形学中一个崭新而富有活力的分支,它生成的图像通常类似艺术家、工艺美
具有实时决策任务的复杂多任务决策支持系统是决策支持技术研究的一个技术难点。这类决策问题与传统企业决策的不同点在于决策任务多而复杂、决策任务的求解具有实时性要求等
本文所研究的内容是武钢计控公司物资管理信息系统,该系统是公司ERP系统的一个核心子系统,是利用网络技术与数据库技术,实现对设备和材料的管理,是公司现代化、信息化建设中的一
无线ad hoc网络是一种新形式的无线通讯方式,整个网络没有固定的基础设施,每个移动节点兼备路由器和主机两种功能,所有节点都是移动的,并且都能动态地保持与其他节点的联系,