基于帝王蝶优化算法的特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:study_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实工程应用中所产生的数据集包含了大量难以处理的特征,这增加了数据挖掘的计算开销并降低了分类的准确性,尤其是高维数据集。特征选择是消除数据集中多余和嘈杂特征的一种简单有效的方法。传统的特征选择方法往往会随着搜索空间的扩大,计算量随之增大而导致计算复杂度增加。而基于启发式搜索策略的特征选择模型及算法计算效率高,在解决特征选择优化问题上表现出优越的性能,已引起了广大学者的关注和研究。相比遗传算法、粒子群优化算法等这些元启发式算法而言,帝王蝶优化(Monarch Butterfly Optimization,MBO)算法具有计算简单、所需计算参数较少、收敛迅速、易于程序实现等优点,但仍存在可搜索位置局限、容易陷入局部最优等不足。为弥补这些局限性,本文提出了三种基于帝王蝶优化算法的特征选择方法,通过实验分析验证所提方法的有效性。本文的主要研究工作如下:(1)针对帝王蝶优化算法全局搜索能力弱,以及在迁移过程中易出现种群多样性减少等问题,提出了一种基于柯西变异的差分自适应MBO(Differential Adaptive MBO Based on Cauchy variation,DAMBO)算法及其特征选择方法。首先,使用差分进化算法中的差分扰动操作来替换MBO算法中的迁移算子,形成了差分变异迁移算子,提升了全局搜索能力。其次,将自适应调整策略融入MBO算法的调整算子中,形成了自适应调整算子,改变单一的继承方式,提高了MBO优化效率。然后,利用柯西变异方法,对每次更新的种群中适应度值最差的五个个体,进行柯西变异,有助于指导较差的个体找到最优解,增加了种群多样性。最后,将提出的DAMBO算法与K-Nearest Neighbor分类器相结合,构建了一种启发式特征选择算法。为了验证基于改进的帝王蝶优化的特征选择算法的性能,分别从9个基准函数和12个UCI数据集两部分实验对其进行测试。实验结果表明,所提出的特征选择算法与相关算法相比具有较优的分类性能。(2)针对当前很多特征选择优化问题中存在离散的决策变量和搜索空间的问题,借鉴原始MBO算法能有效解决连续优化问题,且二进制算子比连续算子具有更强的拟合性,提出了二进制MBO(Binary MBO,BMBO)算法,并基于包装式框架内构建基于BMBO的特征选择方法。首先,采用基于S型和V型传递函数的第一种机制设计了两种二进制MBO算法,即基于S型和V型传递函数设计BMBO算法,分别用BMBO-S和BMBO-V表示。然后,第二种机制是在MBO算法上结合群体划分策略和局部扰动,形成第三种BMBO算法,以避免MBO算法过早陷入局部最优;在BMBO算法中引入了变异算子来增强探测阶段,形成第四种二进制MBO算法,即BMBO-M算法。最后,基于KNN分类器形成适应度函数,结合改进的四种BMBO来设计特征选择算法。采用20个UCI数据集做仿真实验,与文献中最近的相关算法进行比较,对所提的算法进行评估。实验结果表明,与最近的类似技术相比,BMBO和BMBO-M算法均表现出较好的分类能力。(3)针对经典的MBO算法不能很好地处理连续型数据,以及粗糙集对于大规模、高维复杂的数据处理能力不足等问题。利用邻域粗糙集模型既能分析连续数型据,又能处理符号与数值的混合型数据的优势,提出了一种基于邻域粗糙集与MBO的特征选择(Feature Seleciton Using Neighborhood Rough Sets and BMBO-M,FS-NBM)方法。首先,针对获取的数据构建邻域决策系统,并进行初始化处理。然后,结合基于邻域粗糙集的邻域依赖度度量来构造新的适应度函数,对选择的特征子集的适应度值进行评估并排序。最后,使用已提出的BMBO-M算法搜索最优特征子集,进而设计了一种启发式的FS-NBM算法,该算法在特征选择问题上具有较强的搜索能力,可以有效地获取最小/最优的特征子集。实验中使用14个UCI数据集进行分析和测试,与多种最近提出的启发式特征选择算法进行实验对比。实验结果表明该方法能够选择特征数较少且分类精度高的特征子集。
其他文献
为了更方便地营造一个健康良好的居家环境,本系统研究了一种基于嵌入式系统RT-Thread的室内环境监测系统,实现了远程监测环境,包括温湿度、光照强度、CO2、甲醛、挥发性有机物、PM2.5、PM10等环境因素的测量,可以更好的监测生活环境。论文中阐述了监测系统的硬件和软件设计,涵盖了各个模块详细的功能探索。本系统由多种独立的传感器采集模块、开发板带有的WIFI通讯模块和液晶屏显示模块以及物联网平台
学位
雷电是较为危险的一种自然灾害,严重时会对我们人身安全及财产构成威胁。随着社会对电力需求的日渐增大,输电线路数量和覆盖面也随之增多变广,极易受到雷击的破坏,导致电力系统瘫痪,于是快速精准地确定雷电位置尤为重要。雷电爆发伴随着丰富的甚低频(VLF)信号的产生,定位雷电的位置可看成定位VLF信号源的位置。在两条不同的VLF信号传播大圆路径中,由于VLF信号受电离层的各向异性、地面电导率不同的影响,即使传
学位
电阻抗层析成像(Electrical Impedance Tomography,EIT)是新兴的重构被测区域内电导率分布的可视化技术,因具有非辐射、非侵入、实时性等优点被广泛的应用于工业过程检测和生物医学成像领域。但是,电阻抗层析成像图像重构过程是一个高度的非线性病态逆问题,导致重构图像空间分辨率差,目标边缘恢复不清晰,严重阻碍了电阻抗层析成像技术的推广应用。面对日益复杂的应用环境和高质量的重构图
学位
在当前互联网快速发展的大背景下,越来越多的数字图像被应用到各行各业,如何提高传输和储存数字图像的安全性受到研究者的关注。混沌系统具有遍历性、确定性和对初始条件和控制参数的敏感性等特点,而这些性质非常符合图像加密机制的要求,因此近些年出现了越来越多的混沌图像加密机制。由于图像数据具有冗余度高、相邻像素相关性强等特点,混沌图像加密算法在效率和安全性等方面比传统的加密算法具有更强的优势。然而,其中一些基
学位
<正>鉴定与鉴藏是中国古代书画研究的主要内容,是中国美术史学的一个分支学科,具有独特的学术传统。1949年以来,老一辈专家学者在现代学术体系下,在古书画鉴定和研究方面取得了丰富的学术成果,为书画鉴定与鉴藏研究打下了坚实的学术根基。近年来,古书画鉴藏史研究日益受到学术界关注,相关研究成果不断丰富。2021年10月17日至20日,由故宫博物院主办,中央美术学院、中国美术学院、浙江大学联合主办的"第一届
期刊
随着信息技术的高速发展,大数据时代的数据呈现出爆发式增长、形式复杂多样以及语义日益丰富的特点,传统的单标记数据无法描述一个对象同时属于多个类别的问题,需要利用多标记学习来描述这类数据。此外,面向多标记学习中的多标记数据高维性是广泛存在的,由于侦测手段和隐私保护等因素,其中包含着冗余、不相关的以及不完备的信息,这严重影响了多标记分类的性能。本文针对多标记学习中的高维数据特征选择问题,扩展邻域粗糙集理
学位
双论域模糊概率粗糙集模型作为粗糙集的拓展模型,可以有效处理概率不确定性和模糊性并存的数据分析。本文基于双论域模糊概率粗糙集模型,从多粒度的角度对其进行拓展,考虑对象的模糊等价类可能为空的情形,构建了一种双论域多粒度模糊概率粗糙集模型,将双论域模糊概率粗糙集模型拓展到了多粒度结构层次。此外,随着时间的推移,信息系统中的数据常常会发生变化,粗糙集的知识也可能会随之改变,此时如何对近似集进行高效率的更新
学位
近年来,随着智能教育的发展,互联网在线教育平台应运而生,打破了传统课堂的时空限制,实现教育资源共享。越来越多学生选择在线教育平台进行辅助学习,积累了大量的学生学习数据,这些数据蕴含了丰富的信息和价值,为实现知识追踪等教育研究任务提供有力的支撑。知识追踪任务是通过对学生学习数据进行建模追踪学生知识状态的变化,旨在掌握学生的学习水平、知识状态等,从而为学生制定个性化学习方案,提升学生学习效率。因此,如
学位
隐私集合交集是信息安全的重要研究内容,在测量广告转化率、指纹匹配、僵尸网络检测、人类基因组测试以及社交网络等领域有着广泛的应用。隐私集合交集允许多个参与方共同计算并得到各自拥有集合的交集,同时不泄露各方的隐私信息。然而,现存的隐私集合交集协议运行效率低下,并不适用于计算能力薄弱的便携式设备。此外,在多方隐私集合交集中,被腐败的参与方之间的合谋将导致整个协议无法执行或诚实的参与方得到错误的结果。针对
学位
随着互联网的高速发展,使用互联网的人数也呈几何式增长,人们也越来越习惯依靠互联网进行信息传递,这也导致大量的数据信息流入互联网,其中也不乏一些机密信息例如病人的CT图像、商业秘密甚至于军事机密。图像则是信息传递与存储的一个最重要的载体,已经被广泛应用于日常生活以及商业、医学、军事等方面,图像中往往会隐含着大量的隐私以及其他秘密信息,那么为了确保隐私与其他秘密信息不被非法窃取图像的安全问题亟须得到保
学位