论文部分内容阅读
随着大数据时代的到来,不断革新的科技产品产生了海量的数据。数据的维度和复杂程度也随科技的进步而不断的增长,从而导致维度诅咒问题。但是这些高维数据中蕴含在少数数据维度之间的有效信息才是人类日常生活中所需的,这导致数据维度随技术的发展增长和人类为了获取有效信息而降低数据维度的矛盾。为帮助各领域有序的发展,特征选择算法应运而生。特征选择是通过一定的技术手段从原始的数据特征集中选择最优的特征子集,然后利用该子集进行后续的数据分析。特征选择方法可以降低算法的复杂度,提高算法的执行效率,因此成为处理高维度数据的一项有效手段。通常根据数据标签的存在情况可以将特征选择算法分为有监督特征选择(Supervised Feature Selection)、弱监督特征选择(Weakly Supervised Feature Selection)和无监督特征选择(Unsupervised Feature Selection)。根据特征选择和分类学习算法的关系可以将特征选择分成过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)。在我们的方法中,由于着重考虑标签空间中的有效信息,因此在我们的方法中选择监督式特征选择作为我们的研究。由于嵌入式方法整合了过滤式和包裹式方法的优点,弱化所整合的过滤式和包裹式的缺点,因此我们考虑嵌入式方法。另外,由于稀疏化模型利用向量或矩阵范数将数据中大量的冗余信息剔除、保留最相关的特征从而简化了算法模型,以及稀疏化模型具有良好的可解释性,因此我们在特征选择的方法中结合稀疏化相关知识展开研究。基于稀疏化的多标记特征选择方法在多标签学习中起着不可或缺的作用,它可以在保留相关特征的同时消除无关冗余特征。现有的多标签特征选择算法囿于单标签特征选择的思路而只考虑特征矩阵或者标签矩阵,然而标签矩阵和特征矩阵是对相同的数据在不同形式下的两种表示形式。本文针对现有的多标签特征选择算法中存在的缺点,提出了一种新的特征选择方法,即基于特征和标签共享共模的特征选择(SCMFS,Feature Selection considering Shared Common Mode between features and labels)。首先,利用耦合矩阵分解(CMF,Coupled Matrix Factorization)方法提取特征矩阵和标签矩阵之间的共模,以至于充分考虑了两个矩阵中的数据信息。此外,采用非负矩阵分解(NMF,Non-negative Matrix Factorization)加强稀疏性并提高特征选择的可解释性。最后我们为了有效优化所提的多标记特征选择算法,给出一种简单有效的优化方案,并证明了其收敛性。同时在12个真实的多标签基准数据集上,利用两个分类器——支持向量机(SVM)分类器和K最近邻(KNN)分类器,通过宏平均(Macro-average)和微平均(Micro-average)两个综合评价指标,以及5个先进的多标签特征选择算法进行大量的实验。实验结果证明了所提出方法的优越性。最后本文的主要贡献可以概括为如下几个方面:1、利用耦合矩阵分解方法提取特征矩阵与标签矩阵之间的共享信息。2、引入具有聚类性和可解释性的非负矩阵分解帮助选择最具判别性的特征。3、提出了一种新的多标签特征选择方法:特征与标签共享共模(SCMFS)。4、提出了一种求解约束优化问题的SCMFS方法,保证了算法的收敛性。