论文部分内容阅读
非负矩阵分解(NMF)是一种处理大规模高维数据的矩阵分解方法,它以非负约束和局部表示等独特的优势吸引了众多研究者的关注,并被广泛地应用于数据挖掘、计算机视觉和模式识别等领域。此外,实际的分类问题中存在很多非均衡数据,包括密度不均衡、类别不均衡和常见的样本数目不均衡等情况。基于此,本文重点研究了基于数据结构信息的非负矩阵分解算法和面向非均衡数据分类的非负矩阵分解算法。首先,概述了非负矩阵分解及非均衡数据分类的基础理论。给出了NMF基本算法、数学求解方法,以及经典的衍生算法;并总结了数目不均衡数据的分类难点及常用的抽样处理方法。其次,针对基于图信息的非负矩阵分解仅用欧式距离来衡量样本邻域结构的局限性,将邻域样本相似度引入非负矩阵分解,提出一种基于邻域样本相似度的非负矩阵分解算法(NSS-NMF)。该方法通过引入邻域协方差矩阵来计算邻域样本相似度,对于邻域结构相似的样本点,其分解所得的系数矩阵的约束项被赋予较高的权值,以适应于样本密度不均衡的情况;进一步,引入邻域类标相似度,并考虑基向量的正交性,提出一种基于邻域相似度的非负矩阵分解算法(NS-NMF)。该方法在考虑邻域样本相似度的基础上,根据邻域样本的已知类标信息构建邻域类标分布矩阵,这样组合得到的邻域相似度有效地兼顾到数据类别分布不均衡的情况。实验结果表明,上述基于数据结构信息的非负矩阵分解算法可以获得比传统方法更好的聚类分类性能。最后,针对常见的非均衡数据问题(即样本数目不均衡),提出一种新的加权非负矩阵分解算法(WNMF)。该方法通过计算每类样本数在总样本数中的比例,求其倒数作为训练样本的权值引入非负矩阵分解,因此在保持了多数类分类准确性的同时,有效地提升了少数类样本的分类性能。此外,结合NS-NMF算法考虑了邻域结构信息的优点,提出一种基于非负矩阵分解的混合重采样算法(HS-NMF)。该方法先通过NS-NMF将数据集映射到更加可分的子空间,再通过经典的过采样、欠采样技术改善数据的不均衡程度。实验结果表明,将非负矩阵分解应用于非均衡数据分类中,可获得比传统重采样方法更高的分类准确率。