基于信息论与稀疏性的特征选择算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：loveging87

【摘要】

：

随着计算机技术在社会各领域的深入渗透，数据正在加速迅猛累积。如何从这些海量数据中挖掘出潜在的有价值信息是现在面临的重要挑战。大规模数据的一个重要体现就是描述数据的

【作者】

：

彭涵阳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

特征选择算法信息论稀疏性合页损失非凸非光滑优化技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术在社会各领域的深入渗透，数据正在加速迅猛累积。如何从这些海量数据中挖掘出潜在的有价值信息是现在面临的重要挑战。大规模数据的一个重要体现就是描述数据的特征维度极高，但是这些特征的很大一部分都是冗余或噪声特征。这些冗余和噪声不但将造成存储资源的大量浪费，而且还会降低挖掘学习算法的运行效率。更严重的是，它们还会将真正有价值的信息湮没从而恶化学习算法的性能。特征选择正是在这种情况下应运而生。特征选择就是尽量保持本质信息不受损或少受损的前提下，从纷繁芜杂的原始特征集合中选出一个较为精简的子集。　　本文分别将会从信息论和稀疏诱导的角度，围绕从原始数据中祛除冗余噪声特征选择精简特征子集这一目标，开展一系列具体而深入的特征选择的研究工作。本文的主要贡献和创新如下:　　1.从信息论的基本概念出发，发现了Fano不等式之外另一种全新的Bayes错误率和关于特征与类别的互信息量的关系。为现有的由不同启发式准则发展出的基于信息论的算法建立了一个统一的理论框架。在此框架内，受Occam剃刀原理启发提出一种新的基于信息论的特征选择算法。该算法还可以通过嵌入一个插件用于辨别冗余和噪声特征以更好地进行特征选择。该算法的有效性在实验中得到了充分的验证。　　2.受稀疏表示和支持向量机的启发，提出了一种基于不等式约束的l2，p范数(0＜p≤1)最小化的特征选择算法。该算法模型在多步精巧的转换后可以通过迭代的加权最小二乘求解。通过严格理论证明，该优化算法可以保证收敛且收敛点满足KKT条件。该算法及其优化技术的有效性在实验中得到了充分的验证。　　3.提出一种建立在l2，r范数(0＜r≤2)型损失和l2，p范数(0＜p≤1)型正则之上的一般性特征选择算法。提出了一个新的迭代的权重调整最小二乘的优化方法来求解该算法模型。从理论上证明了该优化方法将会收敛且收敛点是到驻点，而收敛阶是min(2-r，2-p)。该算法及其优化技术的有效性在实验中得到了充分的验证。　　4.提出了一种建立在新的合页损失和l2,p范数(0＜p≤1)型正则之上的特征选择算法。提出了一种新的加速近邻映射梯度下降法来优化新提出的算法模型。理论分析表明该优化方法将会收敛，而且当模型是凸的情况下，收敛速度将达到O（1/k2）（k为迭代次数），这是光滑优化问题的最佳收敛速度。该算法及其优化技术的有效性在实验中得到了充分的验证。

其他文献

基于深度神经网络的字幕行识别方法研究

文字作为人类语义信息的直接表达，在日常生活中有着重要的作用。图像中的文字通常可以直接反映出内容信息，其识别受到越来越多研究者的关注。但是图像文本中复杂的图像背景以及

学位

深度神经网络字幕行识别注意力机制链接时序分类

粒子群优化算法的研究及在软测量建模中的应用

本文针对基本粒子群算法易陷入局部极小点，搜索效率不高等缺点，提出了基于双变异算子的混合粒子群优化算法(Hybrid Particle Swarm Optimization Algorithm Based onDual Mutat

学位

粒子群优化算法动态惯性权重双变异算子神经网络软测量

提高交流电机直接转矩控制系统调速性能的研究

论文的研究工作主要以提高和改善感应电机直接转矩控制(DTC)系统调速性能为目的，分别针对DTC控制中的前向控制通道、磁链和转矩观测通道以及无速度传感器的速度辨识进行了研究

学位

预测控制卡尔曼滤波直接转矩系统无速度传感器交流电机

基于动态特征的粒子群优化算法研究

粒子群优化算法(Particle Swarm Optimization,PSO)是在对鸟群捕食行为模拟的基础上提出的一种群智能算法,是一种新兴的优化工具。基于其较快的收敛速度,方便的参数调整和较

学位

群智能粒子群粗糙集邻域

简易捷联惯导系统若干问题研究

现代战争中精确制导武器的使用越来越广泛，而惯性导航系统由于其自主性强的特点，在制导武器中具有重要的地位。本文主要研究了某发展型空射反辐射导弹捷联惯导系统的简化方案、

学位

空射反辐射导弹捷联惯导系统惯性测量单元初始对准

基于改进差分进化算法的氨合成塔操作优化研究与应用

氨在我国化工生产中的占有重要地位，合成氨产量吨位大，与国民经济关系密切，特别是对发展农业具有主要意义的化工产品，主要用作肥料和生产其他氮肥的原料，氨合成塔是合成氨生产过程

学位

合成氨混沌差分进化非线性约束优化操作优化

嵌入式故障诊断专家系统开发平台的研发与实现

目前，嵌入式控制器已经广泛应用于设备的控制系统中，在人类对设备的依赖性增强的同时，设备的安全性、有效性、可靠性对安全生产至关重要，设备和系统一旦发生故障，轻则导致经济损失

学位

嵌入式系统故障诊断专家系统代码生成电梯系统

HART多路复用器的研究与开发——基于μCOS-Ⅱ的应用层及上层接口设计

随着科学技术的不断进步，现场总线技术得到了飞速发展，已经成为过程控制领域的一大热点。尤其是HART协议，以其独有的优势和特点，得到了越来越广泛的应用。因此，HART多路复用器的研

学位

HART协议多路复用器μCOS-ⅡTCP/IP上层接口设计现场总线

基于贝叶斯多核学习的行为识别

由于最近几年视频数据量的爆炸式增长，视频分析与理解变得越来越重要并且吸引了大量的研究兴趣。在视频分析与理解领域，对于视频中人体行为的识别是一个活跃的研究方向。在众多

学位

贝叶斯多核学习行为识别特征融合算法图像处理

基于模糊层次决策的工控系统安全评估方法研究

随着工业控制系统的信息化建设加速发展，工业化与信息化融合达到了新的高度。近年来，不断出现的工控系统安全事件，说明攻击者可以利用工控系统存在的脆弱性，毁坏工控系统设备，对人

学位

工业控制系统安全评估指标体系多目标决策

基于信息论与稀疏性的特征选择算法研究

与本文相关的学术论文