基于模糊聚类和粗糙集的连续值属性约简研究

来源 :首都经济贸易大学 | 被引量 : 3次 | 上传用户:dianquan999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性约简是粗糙集理论的研究热点之一,它是一种保证属性分类能力不变的前提下,剔除冗余属性的过程。通过属性约简,可以实现数据表的列压缩,从而降低数据挖掘的数据量,提升挖掘效率。目前基于粗糙集的属性约简算法多数只适用于离散型数据。然而,在现实工作中,不仅有符号、类别等离散型数据,更有大量的连续型数据,甚至二者的混合。因此,在粗糙集属性约简算法的应用中,通常先对连续数据进行离散化处理。然而,离散化处理过程难以保存属性在数值上的差异,难免造成一定程度的信息损失。因此本文深入研究以往文献,提出了一种基于模糊聚类和粗糙集的连续值属性约简算法。基于模糊聚类和粗糙集的连续值属性约简算法主要分为两个部分:第一部分,引入模糊聚类,将属性值上的模糊性转化为对象关系的模糊性,并以此得到论域对象的划分,这部分相当于粗糙集属性约简中的等价类划分;第二部分,同样运用模糊聚类,将相似度贴近的属性聚为一类,并从每一类中选择代表性的属性构成约简属性子集,而在属性子集的评价上,结合了粗糙集依赖度的概念。通过模糊聚类和粗糙集结合算法得到的属性约简,综合考虑了属性的相异性与相关性,在保证属性信息覆盖广度的同时,降低了约简过程的信息损失,并在依赖度概念上保持了信息系统的分类能力不变。区别于以往粗糙集的启发式属性约简算法,基于模糊聚类和粗糙集的属性约简不需要计算核属性,也省去了逐层逐个计算属性重要度的过程,因而在算法上有所提升。最后通过7组UCI标准数据集以及3组经济金融数据的仿真实验,表明本文提出的算法有效,并且在进一步的决策树分类中,基于约简属性的预测精度多数情况下高于全部条件属性的预测精度。
其他文献
简单来讲,有声阅读是指依托网页或客户端技术,为组织或个人提供有声读物的录制、收听和分享等阅读服务.rn如今人们的生活节奏加快,特意留出时间用来看书成为了一件奢侈的事情
期刊
在会展艺术发展的漫长历史进程中,建筑起到了不可或缺的地位。伴随着会展艺术不断地创新和演变,建筑的设计模式也不断打破陈规,得到了翻天覆地的变化。文章从从建筑形式、材
对我国当前的高校体育教育来说,改革是适应社会和国家对体育人才需求的必经之路.培养具有健康素质的高质量人才是我们目前必须面临的一个问题,在新课标改革下对高校体育实行
钧瓷,主产于河南禹州,宋代五大名瓷之一,始烧于隋唐,繁荣于北宋,传承至今已有一千多年的历史。它以“入窑一色,出窑万彩”的窑变效果而独树一帜,它的出现一改自汉至唐以来单
2018中国国际造纸创新发展论坛将于2018年8月29日在上海世博展览馆举行.本届论坛以“创新赋能生态·进化重塑未来”为主题,针对造纸行业的创新发展、生态构建、进化模式、未
期刊
本文借助上海证券交易所50ETF的1分钟高频交易数据及中国波指(iVX),采用基于非参数估计的已实现方差理论测算了50ETF的波动率,并建立GMM模型进一步考察了与HAR模型相比,iVX是
自今年7月进入汛期以来,黑龙江省多地多次出现突发性灾害天气,造成大面积基站停电、基站退服、传输线路中断等问题,极大地影响了通信网络的正常使用.随着主汛期临近,防汛工作
期刊
从四个方面浅谈如何激发学生参与课堂教学活动:提高教师自身素养,激发学生参与课堂教学;帮助学生树立信心,激发学生参与课堂教学;精心设计新课导入,激发学生参与课堂教学;灵
很多学校看重校本教材的实用性,为了开发和提高教师的编著能力,通常会下达给教师编写校本教材的任务,作为普通老师,怎样才能编写好校本教材呢?作者根据自己的经验,系统全面的
RapidIO技术是一种点对点的基于包交换的交叉开关互连技术,其高带宽、低延时、高效率及高可靠性的优点为高性能的嵌入式系统内部互连通信提供了良好的解决方案.简要介绍了Rap