基于进化多目标优化的SVM实例选择算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:kwok916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)作为机器学习中一种常见且有效的分类器,已经成功地用于各种分类学习中,从模式挖掘到计算机视觉,从医学诊断到信息检索。尽管SVM具有坚实的理论基础和良好的泛化性能,但它也具有一些缺点,其中之一就是其训练复杂度比较高,复杂度为O(n~2)甚至O(n~3)(n是训练集中的实例数)。在当今社会,随着可用数据越来越多,这种问题显得越发突出,为了解决该缺点,一种数据预处理技术,实例选择已经被提出。实例选择作为机器学习和数据挖掘中重要数据预处理技术之一,其主要目的是从原先的数据集中选出一个子集,利用该子集学出与原始数据集类似或者更高精度的分类器模型。与此同时,由于仅使用部分训练数据,模型的训练过程变得更加高效。据此,很多利用不同优化的技术的SVM实例选择方法被提出,其中演化计算作为一种全局收敛性算法,无需对目标函数和训练数据有任何假设,成为当前实例选择的研究热点。已有的基于进化多目标的实例选择算法虽然可以获得不错的分类精度或压缩率。但是这些算法要么精度比较高,但压缩率(删除的实例数数目)较低,要么压缩率比较高,精度较差。因此如何得到压缩率高精度也高的实例子集就显得至关重要。据此本文提出了一种基于子区域划分的进化多目标SVM实例选择算法(SDMOE A-TSS)来同时获得具有高精度和高压缩率的SVM训练子集。另一方面,用进化多目标来解决SVM实例选择问题时,由于对于每一个个体的评价需要训练一个SVM分类器,且需要循环迭代多次,这样会使得算法计算效率较为低下。那么如何在不降低SVM实例子集分类精度的前提下,设计高效的进化实例选择算法也是当前研究的一个重要挑战。因此本文提出了一种基于聚类代理评价的高效进化多目标SVM实例选择算法(CSE-IS)来减少实例真实评价,提高算法效率。基于以上提出的两个SVM实例选择算法。本文的主要工作包括以下两个部分:(1)本文提出了一种基于子区域划分的进化多目标优化SVM实例选择算法(SDMOEA-TSS),算法的主要思想是通过对目标空间的解进行子区域划分,在每个子区域设计了不同的交叉变异算子,最终得到一组Pareto解。该算法主要包括二个策略:1、基于子区域的初始化策略:该策略通过采用不同的选择概率去生成初始种群,然后将初始种群通过目标空间划分到相应的子区域;2、基于子区域的演化策略:针对每个不同子区域设计了不同的进化算子,主要三种。基于子区域的交叉算子,基于子区域的变异算子,和基于子区域的更新算子。实验结果相比起已有基于进化计算的SVM实例选择算法,SDMOEA-TSS算法本身具有更好的收敛性和多样性的均衡,同时在精度(Accuracy)和压缩率(Reduction rate)两指标上均能获得更好的结果。(2)本文提出了一种基于聚类代理评价的高效进化多目标SVM实例选择算法(CSE-IS)。算法主要思想是通过对实例空间聚类初始化,且在进化过程中对种群中个体进行编码聚类,利用代理评价减少算法真实评价。该算法主要包括两个策略:1、基于实例空间聚类的初始化种群策略:该策略通过对原始实例数据进行空间聚类,在每一个簇中以一定概率选择部分实例,循环迭代多次,构建初始种群。2、基于种群个体编码聚类的代理评价策略:该策略通过对子代中的每个个体的编码进行聚类分簇,在每个簇中得到父代(适应度函数排序)和子代的数目,根据父代的适应度值排序来确定子代当前个体的适应度排序,继而选出前一半适应度值比较好的个体进行SVM训练评价。这种算法可以有效减少训练集真实评价次数,加速算法搜索。同时实验结果表明CSE-IS算法不仅可以大大较少训练时间同时可以获得具有较好性能的实例子集。
其他文献
当前,企业已成为我国研发投入的重要组成部分。但由于研发项目的高风险性和高成本性使得企业研发需要大量的资金投入,如若只靠企业或者市场机制自行运作的话,难免会遇到投资
近年来,丙烷脱氢(PDH)反应因市场对丙烯需求的不断增长和页岩气产量的增加而受到广泛关注。丙烷脱氢反应中,铂基催化剂因其独特的C-H键活化能力和环境友好特性显示出最优越的性
在充分调研研究区前人研究成果与基础地质资料,详细观察和实测川北地区灯影组多条重点野外剖面的基础上,结合区域地质背景和多口钻测井及分析化验资料,本论文对研究区灯影组
光催化分解水制氢是近年来最活跃的研究领域之一。由于紫外光能量占太阳光的5%,可见光能量占太阳光的43%,因此提高光催化可见光区域的吸收是提高光催化分解水效率的关键。光
信息爆炸时代,如何挖掘用户的潜在兴趣,通过提供个性化服务来提升用户的满意度及忠诚度,进而增强企业竞争力,帮助企业获得更高的商业价值是各大企业正努力解决的问题。在当前竞争激烈的市场环境下,企业想要提升竞争力,关键在于提高其知识创新能力。开放式创新社区因其能够充分利用大众智慧已成为企业获取创新知识的重要来源之一,然而企业开放式创新社区中渐增的海量信息正在加重用户的认知负担,用户往往需要耗费大量时间和精
双辊连续铸轧因其短流程、低能耗、低成本被广泛的应用在铝板带箔材的生产中,而铸嘴系统则是实现稳定、高效、高质量铸轧生产的重要环节。随着铸轧技术向超宽、超快的方向发
飞秒等离子体产生太赫兹是当下的研究热点,该方法能够提供高功率和超宽带的太赫兹辐射,广泛应用于多个领域。但是该方法所产生的太赫兹波在传输过程中存在严重的吸收和损耗,因此需进一步提高其太赫兹辐射效率并进行应用研究。本文首先采用光电流模型对不同压强条件下气体太赫兹辐射进行了数值模拟;其次构建了飞秒等离子太赫兹辐射系统,采用混合气体作为介质,对其太赫兹辐射增强效果进行了测试;最后采用辐射增强的太赫兹源对4
连铸冷却在铸坯生产过程中非常重要。冷却参数设计不合理,铸坯内部容易出现裂纹、偏析、鼓肚等典型缺陷。因此,系统解释连铸过程中钢液的传热与凝固行为、科学分析和预测连铸
目前,各种基于电力电子技术的装置在市场上广泛应用,这些装置的非线性特性导致电力系统的电能质量问题越来越严重,同时,随着电力用户和各种敏感设备对电能质量要求的逐渐提高,各种电能治理装置应运而生。作为可以对多种电能质量问题进行综合治理的设备,统一电能质量调节器(UPQC)能够同时解决电压质量问题和电流质量问题,因此得到广泛应用。本文针对三相UPQC的控制策略进行相关研究,通过对当前UPQC研究现状的调
随着传统能源的枯竭和环境问题的日益突出,促使可再生能源对电网的渗透率不断提高。太阳能、风能这样的可再生能源具有间歇性、波动性以及不可预测性的特点,难以持续、稳定、高效地输出电能。分布式发电(DG)是可再生能源并入主电网的主要方式,锁相环(PLL)是实现并网同步控制的关键技术之一。非理想电网电压会受到频率阶跃、相位跳变、不平衡以及谐波等不良因素影响,PLL性能的优劣会直接影响到DG系统稳定性及输出电