基于演化计算的特征选择方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zouximu19840420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择技术是大数据分析与数据挖掘研究的热点之一,数据维度的激增为特征选择理论和方法带来了新的困境。特征选择能有效地处理高维数据,改善学习模型的泛化能力,但是数据规模的日益膨胀以及数据类型结构的多样化严重影响学习算法对数据的分析性能。依据特征蕴含信息的重要性,原始特征可以划分为无关特征、相关特征和冗余特征,而相关特征与冗余特征相互转化的特点使得搜索最优特征子集的任务更具挑战性。本文将特征子集选择任务刻画为特征组合优化问题,采用具有良好全局搜索和并行计算特性的演化计算方法进行特征空间寻优。主要研究适用于特征组合优化的个体编码策略、演化搜索机制、优化目标构建方法以及算法性能度量指标。分别从监督式演化计算与无监督式演化计算两方面对特征选择问题进行研究分析。前者主要研究基于单目标演化和包含分类边界信息的多目标演化的特征选择算法,以及基于个体熵的二元差分演化特征选择算法。后者主要针对样本缺少标签信息指导的问题,研究基于演化计算理论的无监督特征选择及其演化聚类优化算法。本文的主要创新点和具体研究内容为:(1)提出基于粒信息遗传优化的特征选择算法。构建基于粒信息的特征选择框架,通过粒化分析特征所包含的分类信息量以评价特征子集的优劣,从信息粒化的角度分别设计基于新型二进制遗传算法的特征粒化算子和基于粒度?邻域粗糙模型的样本粒化算子。特征粒化方面,设计基于粒化的机制评估候选特征子集,使得特征粒化算法选择出重要的特征;样本粒化方面,根据邻域半径先验知识划分不同的粒度层,并计算特定粒度层下的决策属性对条件属性的依赖度,从而获得良好的特征子集。为进一步研究分析粒度参数对候选特征子集选择的影响,又给出基于遗传算法的粒度优化算法,其主要目的是以自适应的方式选择合理的粒度值,使得获得的特征子集达到最优。通过实验结果以及应用实例表明,所提方法能显著改善特征子集的分类准确度。(2)提出基于改进多目标优化的混合特征选择算法。针对单目标特征选择算法选择出特征子集的综合性能较差的问题,本文分析多个优化目标的冲突关系,继续研究邻域模型中分类边界信息对特征重要度量的影响,引入新的邻域模型来计算正域值,该方法将边界区域蕴含的分类信息融入正区域中,使得选择的特征子集尽量包含相关特征。在此基础上,将特征子集规模与分类错误率作为两个优化目标综合评估候选特征子集的质量,同时设计相应的二进制编码策略,并将优化目标嵌入个体编码中以实时监控个体质量,利用个体非支配算子来获得Pareto解集。与此同时,计算候选个体之间的拥挤距离以增强演化进程中种群的多样性。给出特征核集的概念,研究Pareto前沿中不同候选特征子集的交叉信息,并基于此来计算最优的Pareto解。由实验结果分析表明,该方法能有效平衡相关特征数目和分类准确度的性能,获得良好的折中解。(3)提出基于个体熵的二元差分演化特征选择优化算法。为研究分析演化过程中多样性与收敛性对特征子集寻优的影响,提出一种高效的二元差分演化算法。首先定义个体熵,分析和量化个体熵与种群多样性的关系,并将个体熵融入优化目标函数,监督特征空间搜索过程中种群多样性的变化,然后给出一种基于局部反向学习的初始化策略,以避免因种群随机性造成的不收敛或早熟问题;设计能满足闭合条件的离散变异算子,根据不同的演化阶段采用相应的子操作,保证演化算法种群的多样性与收敛性。同时设计基于个体熵的自适应二元交叉算子,使得交叉因子依据个体适应度反馈自行调节,减少主观因素对演化过程的负作用。通过实验结果分析显示,所提方法在保证良好的分类性能和特征子集规模情况下,明显压缩了演化算法的时间成本。(4)提出基于差分演化的无监督特征选择及其聚类优化算法。针对缺乏标签信息指导特征子集搜索的问题,引入流形学习模型,构建新型的拉普拉斯计算方法来刻画数据集的内部结构,保留原始样本之间近邻或远离的关系,依据拉普拉斯值度量所选特征具有的局部保留能力,提出基于离散型差分演化的无监督特征选择优化算法,并给出新的个体变异算子和个体交叉算子,以获得优化的特征子集;为了验证选择的特征子集的质量,继而提出基于连续型差分演化的聚类优化算法,设计基于模式的编码策略来表征种群中的个体,并将样本间的紧密度与稀疏度作为聚类的优化目标,采用聚类精度、标准互信息和调整兰德指数三个指标来分析聚类结果。与现有基于稀疏学习的无监督特征算法对比可知,该方法可以有效地选择出能保留数据内部流形结构的关键特征,改善聚类效果。
其他文献
2019年至2021年连续三年在全国1418所高职院校面向应往届普通高中(中职)毕业生、社会考生(农民工、下岗职工、退役军人、新型职业农民等)进行扩招,面对扩招学生年龄差异、身份差异、教育背景等各方面的差异,如何针对这一群体开展有效教学是所有高职院校面临的一个新问题。本文以三年来扩招学生教育教学管理实践为依托,总结扩招学生教学中存在的主要矛盾,并从分类教学、人才培养方案制定及人才培养质量评价等方面
随着社会各界对高等职业院校重视程度的不断提高,高职院校的招生规模正不断扩大,学生的数量增加与生源范围的扩大使得高职院校的教育教学模式面临着新的挑战。在现代化教育的要求下,学分银行模式逐渐被教育界开发并应用到高职院校的教学管理中去。学分银行能够使学校不再局限于全日制的课程资源,使学历教育能够与技能培训相融合,实现学生教学成果的全面量化,促进高职人才培养策略的创新,推动个性化学生教学机制的形成,充分激
位于雄安新区安新县老河头镇的"数字人民币特色试点小镇",地处安新县西南部25千米。该镇工业企业63个,营业面积超过50平方米的综合商店或超市达111个。老河头镇经济水平在安新县排在首位,人民富裕程度普遍较高,人口较多,开展数字人民币试点建设接受度高。
期刊
2019年有4个城市开展了数字人民币的试点测试,到了2020年数字人民币推行又得到了进一步推进,又有6个城市加入到试点工作中来。本文通过对传统第三方支付流程与数字人民币运行流程两者做对比,分析出随着数字人民币推行将新生出一个赛道,这将改变第三方支付行业的竞争格局,而本文研究的拉卡拉公司,随着数字人民币的推行,预计将在营业收入结构方面获得收益。数字人民币是由中国人民银行发行的数字货币,其不同于
期刊
与传统货币相比,数字人民币(E-CNY)作为法定数字货币,具有发行管理中心化与技术架构去中心化并存、可控性与匿名性有机结合以及币值稳定性等特征。可利用数字人民币在构建跨境支付体系中的技术、信用和先发优势,深入分析利用数字人民币构建新型跨境支付体系的模式和途径,为未来一个时期逐步完善跨境支付体系和稳慎推进人民币国际化发挥更大的作用。
本研究探讨了父母心理控制与智能手机成瘾的关系,以湖北省某中学的1320名高中生为被试,采用问卷法考察了心理需求网络满足在父母心理控制和智能手机成瘾关系间的中介效应,以及环境敏感性对这一中介过程的调节效应。结果发现:(1)在控制了手机使用频率后,父母心理控制对智能手机成瘾具有显著正向预测作用;(2)心理需求网络满足在父母心理控制和智能手机成瘾之间起中介作用;(3)中介链条的后半段,即心理需求网络满足
多目标优化问题广泛存在于生产实践中。根据目标数目不同,本文将多目标优化问题细分为经典多目标优化问题、高维多目标优化问题和超多目标优化问题;根据最优解与目标间的对应满足程度不同,提出一类特殊的多目标优化问题。传统多目标优化问题默认目标间存在竞争关系。目标间常见的其他关系还包括相似、冗余、协作、约束和不相关的关系。由于较多的目标数,高维和超多目标优化算法的性能仍面临挑战。传统多目标优化算法搜索问题的最
近年来,随着新型微结构光纤和光纤微结构技术的逐步成熟,光纤微结构传感器件因其具有高紧凑型及高度灵活可变的特点在光纤传感领域占领了一席之地。光纤光栅和光纤干涉仪作为光纤微结构传感器中最主要的两个组成部分,分别因其绝对物理量的测量和高灵敏度的特性适用于不同的传感需求,但是,这两种光纤传感器件均具有待测参量和温度的交叉敏感特性,为了结合光纤光栅和光纤干涉仪的优点及解决待测参量与温度交叉敏感的问题,以适应
体验式学习作为当前热门的学习方式,在英语学习当中的应用十分有必要。初中英语作为学生学习的重要科目,应当提升学生学习的兴趣与积极性。英语成绩的提升与学生的学习兴趣密不可分,学生在体验式学习中亲自参与学习过程,相对于传统英语教学起到事半功倍的效果。体验式学习作为一种行之有效的学习方法,是当前英语教学常用的教学手段。
期刊
Ti3SiC2 MAX相陶瓷具有良好的综合性能,如较低的密度(4.52 g/cm3)、高导热系数(43 W/(m·K))、高熔点(3200℃)和高弹性模量(326 GPa)。Ti3SiC2中Si原子层和TiC八面体相互叠加构成的层状结构又使其具有良好的可加工性,有望作为新一代航空材料使用。但相比Si3N4、Al2O3等传统陶瓷材料,Ti3SiC2的硬度相对较低,在长期冲蚀摩擦环境中材料损耗会很快。