基于SAL框架的特征选择算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:WXY0216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择作为组合优化问题在数据挖掘方面是一个很重要的数据预处理步骤,即通过移除不相关和冗余的特征来提高学习算法的性能。在现实机器学习过程中,用户获得原始数据之后先进行特征选择预处理,用选择后的特征子集再训练学习器。特征选择之所以重要一是因为在现实任务中获得到的数据都是高维特征,经常遇到维数灾难,若能从中选择出有价值的特征,使得后续的学习阶段仅需在一部分特征上建立模型即可,那么维数灾难问题就可以得到一部分缓解;另一个原因是移除不相关和冗余的特征会降低后续的学习难度。演化算法是许多目前比较流行的解决特征选择问题的首要选择(比如森林优化算法,粒子群优化算法等),通过将演化算法离散化求解最优特征子集,FSFOA和POS(4-2)都是基于演化算法的特征选择算法。近年来一些研究表明,基于演化算法的特征选择算法比传统的机器学习特征选择算法要具有更好的泛化性能,目前的演化算法都遵循sampling-and-learning(SAL)这样的机制。Sampling-and-classification(SAC)是SAL的一个特定版本,在学习阶段将二元分类器作为一个模型,指导采样阶段的采样质量,计算开销大幅优于其他演化算法。但是直接用SAC解决特征选择问题存在一些局限性。首先目前尚未提出过针对特征选择问题的初始化策略,其次是评估函数的选择存在局限性,不适合求解特征选择问题。本文提出了新的初始化策略,将特征选择作为离散搜索问题,以提高SAC的求解性能;重新定义评估函数,以分类器在预测数据集上的准确率作为评价特征子集的标准,因此最后选择出的特征子集能够对数据集进行很好的分类。新提出的FSSAC算法能够在较短时间内选择出分类性能最优的特征子集,提高了分类器的分类准确率,并且具有很好的泛化性能。目前对FSSAC的主要改进是在初始化阶段和评估函数,因为多数演化算法的初始化都是随机初始化,这样对后面的学习阶段带来很大的不确定性。此外,在评估函数的选择方面主要侧重于分类器的分类准确率,忽略了维度缩减因素,当现实学习任务需要进行降维时,FSSAC明显存在着一定的局限性,所以选择出的特征子集虽然提高的准确率但却降低了维度缩减。本文受序列向前选择和序列向后选择的思想,将初始化阶段进行了改进,在初始化采样阶段,我们将采样的规模作为一个考虑因素,采样集合大多数样本从维度较小的特征子集中选择,其余的样本在高维特征子集中选择。同样在评估函数我们加入了维度缩减函数,利用了参数平衡准确率和维度缩减之间的平衡关系。实验表明,改进后的FSSAC不仅提高了准确率,而且降低了特征子集的维度,达到了我们的预期效果。
其他文献
近年来,随着市场经济不断深化,经济发展日益迅速。商业银行作为经济发展中的重要力量,持久推动着经济的发展进程。国有商业银行、股份制银行、城商行等各类型商业银行在产品、利率等方面竞争日趋激烈。其中,最为重要的是人力资源和人才的竞争。在各商业银行岗位设置中,信贷客户经理是银行利润的直接创造者,也是带动银行其他业务、综合开发其他金融产品的中坚力量。一家银行要在激烈的市场竞争中占有一席之地、凸显优势,就必须
学位
农村商业银行是支持当地经济发展和为农村金融服务的主要力量,通过不断地转型、改革、创新,取得了巨大的成就,在农村金融体系中己占有重要位置。经过30多年的发展,M农村商业银行已成为S市金融体系中机构数量最多,市场份额最高,服务水平最好的重要的金融机构,在促进S市经济高质量发展的进程中,发挥着十分重要的作用。本文以S市M农村商业银行为研究对象,借助文献研究法、案例分析法、调查研究法等研究方法,以农村金融
学位
随着互联网及多媒体等技术的飞速发展,使得信息尤其是图像的传输越来越普遍,因此信息安全变得格外重要,然而数字图像的数据量巨大,数据冗余信息量高,相邻像素相关性强,所以传
互联网的发展使得图像数据迅猛增加,大量的图像数据不仅需要占用更多的存储设备,也对有限的计算资源构成了巨大的挑战,这就需要计算机视觉算法能够高效地处理和存储图像数据
激光熔覆成形技术作为一项高性能金属零件自由实体成形的增材制造技术,在航空、造船、化工和机械等领域具有广阔的应用前景。熔覆层微观组织形态对工件力学性能有直接影响。为了建立熔覆层微观组织和性能调控机制,必须深入研究激光熔覆成形过程中熔池传热传质行为以及非平衡凝固组织演变机理。本文从移动熔池传热传质入手,研究了基板水冷对熔覆层微观组织的细化效果以及多层激光熔覆凝固组织演变规律。首先,针对激光熔覆成形技术
在软件的调试过程中,有效而准确地识别错误的位置非常重要,其中基于覆盖的错误定位(CBFL)和基于变异的错误定位(MBFL)广泛应用于软件调试中。这两种错误定位方法都需要使用测
碳纤维复合材料运用领域越来越广泛,针对于碳纤维复合材料的可塑性高这一特性使其可运用于较复杂环境场景中。碳纤维复合材料弹簧具有比传统金属材料弹簧更高的比强度、比模量等机械特性,并且碳纤维材料本身具有对变形的电阻敏感特性,针对规则形状下的复合材料无损检测的学者也越来越多,而相较于不规则或结构复杂的复合材料无损检测研究相对来说比较少,所以针对碳纤维复合材料弹簧在承载载荷的同时运用于载荷监测领域的研究存在
现代教育倡导学生自主学习、合作学习和探究性学习,大学生的合作学习能力尤其重要。目前国内外很多学者对合作学习进行了广泛的研究,并取得了丰厚的研究成果,同时表明合作学
近年来,随着多维信号与系统的理论和应用研究的快速发展,正系统的研究也从一维向着多维的方向发展,尤其是二维(2-D)正系统。本文研究了具有区间不确定性的离散2-D正系统的鲁
推进电子银行业务发展已成为银行战略转型的必然趋势。农村商业银行(简称农商行)作为服务乡村振兴战略的农村金融主力军,发展电子银行业务不仅是业务创新和市场竞争的需要,也是承担普惠金融责任的表现。提高电子银行替代率,提升电子银行客户转化率,增加电子产品覆盖率,创新经营模式,完善资源配置,促进电子银行业务高质量发展,助推经营管理数字化转型升级,是提升农商行的盈利能力和核心竞争力的重要举措。在激烈的同业竞争
学位