基于稀疏化的多标记特征选择方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:w01225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,不断革新的科技产品产生了海量的数据。数据的维度和复杂程度也随科技的进步而不断的增长,从而导致维度诅咒问题。但是这些高维数据中蕴含在少数数据维度之间的有效信息才是人类日常生活中所需的,这导致数据维度随技术的发展增长和人类为了获取有效信息而降低数据维度的矛盾。为帮助各领域有序的发展,特征选择算法应运而生。特征选择是通过一定的技术手段从原始的数据特征集中选择最优的特征子集,然后利用该子集进行后续的数据分析。特征选择方法可以降低算法的复杂度,提高算法的执行效率,因此成为处理高维度数据的一项有效手段。通常根据数据标签的存在情况可以将特征选择算法分为有监督特征选择(Supervised Feature Selection)、弱监督特征选择(Weakly Supervised Feature Selection)和无监督特征选择(Unsupervised Feature Selection)。根据特征选择和分类学习算法的关系可以将特征选择分成过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)。在我们的方法中,由于着重考虑标签空间中的有效信息,因此在我们的方法中选择监督式特征选择作为我们的研究。由于嵌入式方法整合了过滤式和包裹式方法的优点,弱化所整合的过滤式和包裹式的缺点,因此我们考虑嵌入式方法。另外,由于稀疏化模型利用向量或矩阵范数将数据中大量的冗余信息剔除、保留最相关的特征从而简化了算法模型,以及稀疏化模型具有良好的可解释性,因此我们在特征选择的方法中结合稀疏化相关知识展开研究。基于稀疏化的多标记特征选择方法在多标签学习中起着不可或缺的作用,它可以在保留相关特征的同时消除无关冗余特征。现有的多标签特征选择算法囿于单标签特征选择的思路而只考虑特征矩阵或者标签矩阵,然而标签矩阵和特征矩阵是对相同的数据在不同形式下的两种表示形式。本文针对现有的多标签特征选择算法中存在的缺点,提出了一种新的特征选择方法,即基于特征和标签共享共模的特征选择(SCMFS,Feature Selection considering Shared Common Mode between features and labels)。首先,利用耦合矩阵分解(CMF,Coupled Matrix Factorization)方法提取特征矩阵和标签矩阵之间的共模,以至于充分考虑了两个矩阵中的数据信息。此外,采用非负矩阵分解(NMF,Non-negative Matrix Factorization)加强稀疏性并提高特征选择的可解释性。最后我们为了有效优化所提的多标记特征选择算法,给出一种简单有效的优化方案,并证明了其收敛性。同时在12个真实的多标签基准数据集上,利用两个分类器——支持向量机(SVM)分类器和K最近邻(KNN)分类器,通过宏平均(Macro-average)和微平均(Micro-average)两个综合评价指标,以及5个先进的多标签特征选择算法进行大量的实验。实验结果证明了所提出方法的优越性。最后本文的主要贡献可以概括为如下几个方面:1、利用耦合矩阵分解方法提取特征矩阵与标签矩阵之间的共享信息。2、引入具有聚类性和可解释性的非负矩阵分解帮助选择最具判别性的特征。3、提出了一种新的多标签特征选择方法:特征与标签共享共模(SCMFS)。4、提出了一种求解约束优化问题的SCMFS方法,保证了算法的收敛性。
其他文献
稀磁半导体可以同时具有电子的电荷和自旋两种属性,使多种学科得以有机结合。磁性元素掺入Ⅳ族半导体内制备的稀磁半导体材料能够与作为传统半导体材料的Si基兼容,使用该种材
近年来,随着科技和工业的进步,环境污染问题也随之而来,所以治疗环境污染问题迫在眉睫。光催化技术是一种环境友好型技术在治疗环境污染问题上有很大潜力,成为解决污染问题中
零等待流水车间调度问题是流水车间调度问题的重要分支,工件加工过程中零等待的约束更贴近钢铁炼制、生物制药、化学加工等对环境高要求的加工环节。工人是生产加工过程中的
二维材料是指电子仅可在两个维度上自由移动的材料。许多二维材料具有优越的力学和电磁性质,因而被广泛运用于催化、能量存储、生物医药等领域。它们可以是单元素材料,如石墨
FeRAM铁电存储器是一种高性能的存储器,它有着RAM快速读写的特性和ROM的非易失的特性,具有低功耗,操作速度快、抗辐射性能强的特点。如今在汽车电子的领域有较大的应用。而AHB(Advanced High Performance Bus)总线是一种高性能的总线,它也是如今SOC片上系统常用的总线。它有着开放性的总线标准,能够将不同种类的IP,不同性能的处理器连接在一起实现它们之间的通信从而实现系
目的通过对胸腔镜食管癌管状胃机械吻合术与开胸食管癌管状胃机械吻合术临床资料的对比,研究两组之间手术相关数据及术后并发症发生情况,从而探讨胸腔镜在食管癌根治-管状胃机械吻合术的应用价值。方法对宁夏医科大学总医院肿瘤医院2010年1月1日至2017年12月31日收治的248例行“食管癌根治术+管状胃-食管吻合术”的完整病例进行回顾性研究,其中行“胸腔镜食管癌根治术”的100例病例为实验组,行“开胸食管
本文是一篇翻译报告,翻译原文为《美国法律史卷二:从重建到二十世纪二十年代》第七章(节选)。《美国法律史卷二》为美国法学家G·爱德华·怀特所著,并由牛津大学出版社于2016
盲化也就是无意识化范式是研究意识问题的重要工具。不同的无意识化范式存在原理上的差异和无意识化功能层级的分类。而不同的范式对不同水平的加工也会有不同的影响,同时考虑范式差异和加工水平差异的研究有利于探讨无意识范式层级划分,以及加工水平的不同对意识与无意识层级的影响。本研究探讨了后向噪音掩蔽和客体替代掩蔽在高低两水平加工上的无意识化效果的差异。实验一采用后向噪音掩蔽和客体替代掩蔽范式,分别对颜色信息进
当今社会,随着人们对互联网的使用增多,时刻都有海量的数据在网络上传输,这就给某些不法分子留下了可趁之机。遇到这种情况,首先会想到使用加密的手段去保护数据的安全和个人隐私。但是一般传统的加密方法很直接的告诉他人,这段信息是加密过的,因为经过加密后数据呈现出一种杂乱无章的状态,不法分子很容易的可以发现数据被加密的事实并截获它。如果可以在某些载体中嵌入秘密信息,并且掩盖住嵌入信息的事实,那么就很大程度的
近年来科研工作者对纳米纯金属晶体中晶界的剪切耦合效应已经做了深入的研究,然而,对于纳米合金材料中晶界行为的研究比较少。本文依据分子动力学方法利用LAMMPS软件对Cu-Al