基于聚类集成的特征选择方法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:kmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,需要分析处理的数据程指数型增长。降维技术作为数据挖掘预处理技术的重要组成部分,它能有效地减少学习算法的计算复杂度,从而使得传统的学习算法处理大规模数据成为可能。而特征选择作为降维技术的一种,因为其降维后的数据具有可读性高以及不改变数据结构的特点,被广泛应用于各个领域。该方法的步骤主要分为两个部分,生成特征聚类结果和聚类后的特征选择。但是在基于聚类的特征选择算法中依旧存在以下四个问题:(1)在此类方法中,通常使用的单一聚类方法存在鲁棒性以及泛化能力低的缺陷。(2)在聚类集成中,噪音基聚类对聚类集成结果的负面影响无法得到消除。(3)同样在聚类集成中,通过权重计算后还会出现基聚类权重相似的问题,无法有效地区分基聚类质量的优劣,进而影响特征选择结果。(4)在特征选择阶段,未能同时考虑特征信息量与特征间的冗余性。本文针对以上四个问题,并根据数据集的特点,做出了以下工作:(1)提出了基于聚类集成引导的无监督特征选择算法(Clustering Ensemble Guided Feature Selection,CEGFS)。首先根据不同聚类方法在不同数据集上存在的差异,利用群体智慧思维设计出一种新的自适应聚类集成算法(Adaptive Weighted Clustering Ensemble,AWCE)对特征进行聚类。其次为了解决如何剔除特征间的冗余与挑选大信息量特征的问题,提出中心熵特征选择方法(Select the Feature with Centrality-Entropy Score,SFCES)对聚类集成后的特征进行选择。根据亚利桑那州立大学开发的特征选择库中的8个数据集对所提算法进行评价,结果表明AWCE,SFCES以及CEGFS算法提升了聚类集成以及特征选择的准确度。(2)提出了基于聚类性能评价指标集成引导的无监督特征选择算法(Internal Weighting Clustering Ensemble of Feature Selection,IWCEFS)。IWCEFS首先引入内部评价指标对聚类方法进行评价,提出最大内部有效性向量来解决噪音基聚类对集成的影响。其次设计迭代方法对各基聚类的权重调整,使得优质的基聚类结果获得更大的权重,以此来增大好坏聚类结果的区分度。然后根据聚类集成的结果来获取高质量的伪标签,该方法被称为(Clustering Ensemble with Adaptive Weight Learning,CEAWL)。最后结合CEAWL和l2,1稀疏学习来进行特征选择。同样应用8个数据集对其进行测试,结果表明该方法有效地改善特征选择性能。
其他文献
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)采用多频率、多通道的成像方式,能够不分昼夜地进行对地监测,同时还具有穿透力强、分辨率高等优点。作为PolSAR影像解译的关键技术之一,PolSAR图像分类一直受到国内外研究者的热切关注。PolSAR图像分类是一种像素级别的密集预测任务。近些年卷积神经网络(Convolutional Neur
随着信息时代的发展,数据量日益增加。云存储技术的出现对数据的存储和共享带来了很大的便利,同时也带来了巨大的安全威胁。云存储服务器(Cloud Storage Server,CSS)往往容易受到外部敌手和内部敌手的攻击,采用普通的加密技术虽然可以保护数据隐私,但在使用时需要将远程文件全部下载到本地逐一进行解密,这无疑增加了系统资源的浪费。尽管数据加密被认为是保护数据机密性的一种简单而且有效的方式,但
人脸表情识别技术在人机交互、智慧交通和医疗等领域有广泛的应用,在计算机视觉和深度学习等领域也取得了越来越多的关注。人脸表情识别的核心技术之一是图像特征表达,目的是提取到辨识力高、鲁棒性强的特征。现已有众多学者针对人脸表情识别的关键技术开展了一定的研究工作,但在提高识别精度方面仍然是一个巨大的挑战。本文以人脸表情识别技术中的特征学习和显著性区域检测等关键问题开展研究工作,提高了识别方法的精度。主要研
图像超分辨率重建方法是通过硬件或软件的方式,将高分辨率图像从一系列相关的低分辨率图像中恢复出来的过程。当前,在实现图像超分辨率重建的方法中,机器学习和深度学习是两个对图像重建质量较好的方法。因此,本文基于这两种方法对图像重建算法进行了研究。基于邻域嵌入的自学习图像超分辨率算法是一种基于机器学习的算法。提取图像深层特征的超分辨率重建网络是一种基于深度学习的算法。本文对图像超分辨率研究的主要内容有:(
携能双向中继网络(Two-Way Relaying Network,TWRN)利用能量收集(Energy Harvesting,EH)技术,能够在完成高可靠性通信的同时延长中继节点的工作寿命。已有针对携能TWRN中系统中断性能的研究大多基于理想硬件假设,即不考虑各类损伤(如高功率放大非线性、射频电路噪声等)对收发机的影响。然而,在实际的通信网络中,收发机不可避免地会遭受着诸多因素的影响。尽管已相继
人脑在人类情感的产生过程中起到了至关重要的作用,基于脑电(Electroencephalogram,EEG)的情绪识别研究日益得到国内外学者的关注。有效挖掘大脑的功能机制为情绪识别提供了新的见解,对系统级视角下理解人脑组织的连接模式以及情绪产生的方式至关重要。认识人脑不同脑区在功能上分工与协同的规律是情绪分析的关键,然而现有的情绪识别研究在这一方面存在两个不足之处:研究者对于大脑的探究多从能量角度
视觉跟踪是计算机视觉领域的一个重要研究方向,在自动驾驶、军事侦察、视频监控、人机交互、无人机等领域都有广泛的应用。视觉跟踪的主要目的是在视频序列中,根据给定的初始目标信息在后续视频序列中预测该目标的位置、尺度、运动状态等信息。近年来,越来越多的研究人员从事跟踪算法的研究,各类跟踪算法在跟踪性能上都不断提升,但在目标遮挡、光照变化、快速运动、目标形变等复杂场景下的跟踪性能仍不够理想,所以,对跟踪算法
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术通过在基站端布置大量天线,利用信道之间的渐近正交性,可以有效消除用户间干扰,同时给通信系统带来巨大的性能提升,而成为5G的关键技术并被广泛使用。在大规模多用户MIMO(Multi-User MIMO,MU-MIMO)系统中,不正确的用户分组会引起严重的用户间干扰,因此多用户选择对大规模MIMO系统性能至
水是人类生产活动和社会发展中不可缺少的重要资源。但近年来随着城市化和工业化步伐的加快,导致水污染问题日益突出,水质监测已经成为水资源保护和利用的关键问题。我国是传统的农业大国,农业生态环境的优劣与我国的可持续发展战略息息相关,这其中农业生产灌溉用水的安全性更是直接影响农作物品质。我国以全球8%的耕地面积养活全球20%的人口,创造“中国粮奇迹”根本原因之一是我国有40%的耕地类型为灌溉农田和建立在水
验证码的作用是区分人与机器,在互联网时代早期图像验证码具有非常好的效果。近年来,软件技术飞速发展,特别是深度学习方面的技术突破和硬件突破将AI技术引入了全新的时代。AI技术在图像识别和处理的优秀表现,给图像验证码的核心功能带来了严重挑战。相较于传统基于OCR技术的文字识别破解验证码,基于深度学习技术的破解系统破解的准确率更高、效果更好。于是各式新颖的验证码系统层出不穷,但这些新兴验证码操作逻辑不够