数据挖掘中属性选择算法的分析与研究

被引量 : 0次 | 上传用户:a83017396
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术提供了海量数据分析的一种有效方法。目前,数据挖掘在零售,军事,商业智能,金融等众多领域都得到了广泛的应用。通常数据挖掘算法对数据的质量都有较高的要求,如冗余度小,相关程度高,噪音低等。但是实际中产生的业务数据往往不具有这些特点,因此对数据挖掘的数据进行预处理就成为一项重要的任务。属性选择就是对数据挖掘中的数据进行预处理的一个很重要的步骤。一个好的属性选择方法可以有效地减少数据的冗余度和降低数据的维度,使得数据挖掘算法在经过处理的数据集合上有更加良好的表现。本文首先介绍了数据挖掘的基本思想与处理步骤,在此基础上进一步阐述了属性选择对数据挖掘的重要意义,并针对属性选择的步骤和属性选择方法进行了详细的分析。同时,结合数据挖掘研究平台Weka,分析了属性选择算法的设计与实现,深入剖析了属性选择算法的运行过程。进而,实现了一种基于信息增益和遗传算法结合的属性选择方法,并通过大量的实验分析,论述了这种方法存在的问题。最后,提出了一种基于最小描述长度和遗传算法结合的属性选择方法,这种方法采用最小描述长度作为对属性集合进行评价,使用遗传算法作为对属性集合的空间进行搜索,对于搜索过程中的每个属性集合都使用最小描述长度标准进行评价,确定这个属性集合是否可以继续保留在搜索过程中。该方法保留了遗传算法的鲁棒性和高效性,不仅可以在较短的时间内发现属性子集,而且利用最小描述长度作为评价标准选择出来的属性子集在用于分类时可以达到更好的分类效果。大量的实验同时表明这种方法在绝大部分数据集上都有良好的性能,并且其平均错误率优于Weka平台上已实现的那种基于遗传算法的属性选择方法。
其他文献
养生的目标,即是在促进身心健康与延年益寿。健康与长寿,自古以来就是人类的共同愿望和普遍关心的一件大事。特别是随着精神生活的日益丰富和物质生活水平的不断提高,人们越
迷迭香(Rosmarinus officinalis L.)为唇形科迷迭香属多年生常绿亚灌木。柠檬草(Cymbopogon citratus)为禾本科香茅属多年生草本植物。迷迭香和柠檬草是两种重要的芳香植物,
精益管理源于精益生产,精益管理的核心在于最大限度地降低各种形式的浪费,不断提升企业价值。追求精益生产和实施精益管理的过程中,我们发现以交易为导向的传统会计核算掩盖
RTK技术是实时动态GPS定位技术,它基于载波相位观测值,是一种实时动态测量定位技术,在指定坐标系中它能够实时地提供测站点的三维定位结果,并精确到达厘米级别,是GPS测量技术
脂质沉积性肌病为神经内科相对常见疾病,但表现非常不特异,容易误诊为风湿免疫类疾病如皮肌炎等,胰腺广泛钙化多为消化内科疾病慢性胰腺炎等并发症,脂质沉积性肌病合并胰腺广
目的评价彩超引导穿刺在经皮肾镜取石术(PCNL)处理孤立肾结石中避免肾血管损伤的临床应用价值。方法回顾分析2007年1月至2012年12月我院由彩超引导的孤立肾结石行PCNL术共53
住房抵押贷款证券化是完善我国房地产金融体系的重要金融技术,有利于提高金融资产的流动性,有利于我国住房金融市场的健全与完善,有利于推动我国的住房制度改革和金融制度的
生态女性主义(Eco-feminism)是当代西方由环境运动与女性运动相结合的产物,它诞生于20世纪70年代末、80年代初的各种社会运动之中。生态女性主义反对在父权制世界观和二元式
由于没有认识到标准的重要性,没有及时获得贸易伙伴国的标准信息,中国企业在国际市场上屡屡因为不符当地市场标准而碰壁,从温州打火机事件到欧盟RoHs指令事件,中国企业因为达
旅游溶洞景观灯光工程创意设计,包括文化艺术效果创意及照明电气设计。如何建设好旅游溶洞景观灯光工程是摆在建设者和设计者面前的一道重要课题。