【摘 要】
:
现实世界的数据是海量数据,大型数据库含有冗余特征及噪音,不仅导致数据挖掘的代价高,而且导致规则提取的质量低。针对此问题,通过粗糙集工具对海量数据进行知识约简,可有效
论文部分内容阅读
现实世界的数据是海量数据,大型数据库含有冗余特征及噪音,不仅导致数据挖掘的代价高,而且导致规则提取的质量低。针对此问题,通过粗糙集工具对海量数据进行知识约简,可有效提高数据挖掘的效率及质量。粗糙集是一种新的处理不精确、不完全与不相容知识的数学理论,无需附加先验条件,即可对知识进行约简。近年来,该理论在机器学习、数据挖掘及模式识别等多个领域得到了广泛的应用。本文列粗糙集理论做了深入的研究,力图在一定程度上解决知识约简中的若干问题。论文工作的主要成果表现在如下几个方面:(1)提出两个核的动态求解算法:垂直分布多决策表的增量式求核算法和基于数据修改的求核算法。核是粗糙集理论的重要研究内容之一,大多数属性约简算法,将求核作为求属性约简的前一步骤。然而,在知识动态变化的情况下,采用静态方法求核代价高。为此,采用动态求核方法,可高效维护核的动态变化。(2)提出新的粒子群优化属性约简算法及改进的蚁群优化属性约简算法,并在上述研究的基础上,又提出结合粒子群和蚁群搜索策略的属性约简算法。采用传统的启发式属性约简算法虽可提高求解效率,但存在解个数过少及求得的解为次最佳解等问题。为此,引入进化算法,可有效解决纯粹粗糙集工具得到的解数目过少及求得的解为次最佳解等问题。本文提出的粗糙集模型下的进化属性约简算法可同时得到多个最小约简,且算法时间复杂度明显降低,为数据挖掘的后续步骤打下了良好的基础。(3)提出基于粒子群及蚁群优化的并行属性约简算法,以此有效缩短算法的执行时间。本文的并行机制采用两种数据抽取策略(随机抽取策略及k-d tree抽取策略)可有效祢补单机串行进化算法求解效率低的缺点。
其他文献
随着网络通信技术的发展和Internet的普及,多媒体通信和分布式环境中的协同工作等应用越来越广泛,这些应用对网络提出了不同的服务质量(QualityofService,QoS)以及组播(multicas
在互联网技术高速发展的今天,电子商务迅速崛起。企业仅仅有自己的商务系统,已不能适应企业并购以及激烈的竞争所带来的商业需求的快速变化。企业必须能够迅速地面对市场,寻
特征造型技术是CAD/CAM集成系统的关键技术之一,是产品模型设计的核心。在利用当前基于历程的特征造型系统进行产品的设计和修改过程中,特征重构技术尤其重要。重构的效率将
PHS(Personal Handy phone System)又称小灵通,起源于20世纪90年代初的日本,随后迅速扩展到全球其他国家和地区。据统计,到2006年12月30日,全国的小灵通用户数已达9112万,伴
联想记忆是人类脑细胞的重要功能之一,人工神经网络一个很重要的方面就是模拟人类的联想记忆功能。20世纪末,G.X.Ritter[1,2]等人提出的双向形态学联想记忆网络(MBAM)是一种较
近年来,以互联网和手机为传播介质,以数字化多媒体内容为主体的数字媒体产业在全球范围内快速崛起,并逐渐改变了人们娱乐休闲的方式。本文以数字音像内容集成分发平台为依托,
目前Internet已经成为世界上最大的信息资源库,网上的信息以爆炸性的速度不断丰富和扩展。如何能够快速而有效地按照用户的意图去获取网络资源,成为了一个十分重要而紧迫的问
近年来,数字水印的研究主要集中在图像和音视频等领域,而对文本水印的研究较少。由于文本本身的特点,在其中加载水印的难度较大。已有的研究结果普遍存在非格式化文本难以嵌
随着计算机网络技术的迅速发展和普及,信息成为社会发展的重要战略资源,信息安全问题已成为世人关注的社会问题。门限秘密共享是实现信息安全和数据保密的重要手段,先应秘密
本论文的主要工作包括:(1)深入研究行业标准《IP传真数据非实时传送技术要求》,提出传真终端产品的实现方案;(2)通过对该行业标准的分析提出相应的改进方案;(3)采用嵌入式操作uCl