论文部分内容阅读
随着大数据时代的来临,数据量及数据维度的不断增大,人们迫切需要一些高效的降维方法来从海量高维数据中提取有效的特征信息,达到快速处理海量高维数据的效果。然而,大部分常用的降维方法没有充分利用原始高维数据的结构信息和少量标签信息,不能充分挖掘数据的内在结构特点,因此产生的低维数据表示缺乏判别性,对其进行聚类的结果也有待提高。此外,新的低维数据表示和原始的高维数据之间的映射关系非常复杂,以致于单层的聚类方法不能充分表达。因此,论文针对上述问题,进行了相关研究,取得了以下一些研究成果:(1)提出了基于双图稀疏非负矩阵分解特征选择算法。该算法可以通过非负矩阵分解找到数据合理的低维表示,并通过特征选择算法在低维表示空间选择出更具判别性的特征,进一步降低数据维度。该算法将双图模型与非负矩阵分解相结合,不仅可以同时保留数据空间和特征空间的局部流形结构,而且可以使两个空间的非负矩阵因子在交替迭代更新的过程中相互作用更新,充分发挥双图模型的效果。不仅如此,在此基础上还提出了新的局部判别特征选择聚类,与其他聚类算法相比,该算法有着更强的判别能力,聚类效果更好。实验分析表明,与8种特征选择算法和7种聚类算法相比,提出的算法在聚类精度和标准互信息两个指标上有着明显的优势。(2)提出了基于稀疏正交约束的双图正则非负矩阵分解算法。半监督非负矩阵分解不仅可以利用少量的标签信息有效学习目标(像文本和人脸)中的局部信息,而且可以降低原始高维数据的维度。该算法将双图模型引入到半监督非负矩阵分解中,同时考虑了数据空间和特征空间的流形结构。另外,该算法使用稀疏约束,可以简化计算并加快处理速度。最重要的是,该算法利用了双正交约束,可以避免图像和基本矢量之间的不对应问题。因此,该算法可以有效地增强聚类的辨别力和排他性,并提高聚类性能。实验分析表明,在3个真实数据集上,该算法比其他4种先进的算法有着更好的聚类效果。(3)提出了基于双图稀疏的深度非负矩阵分解算法。非负矩阵分解可以从原始的高维数据空间中学习一种低维数据表示。然而,新的低维数据表示和原始的高维数据之间的映射关系非常复杂,以致于单层聚类方法无法更好的表达。该算法能够根据原始数据集中未知且不同的属性,学习出一种隐层的表示用于实现聚类表达。不仅如此,为了充分挖掘数据空间和特征空间的局部几何信息,该算法采用多层的双图流形学习,不仅可以处理数据维度较高的数据集,而且可以处理数据量较大的数据集。与此同时,为了简化计算、加快处理速度、提高算法效率,该算法引入了多层稀疏约束。实验分析表明,在4个不同的数据集上,该算法比其他6种先进的算法有着更好的效果。(4)提出了基于双正交约束的半监督双超图深度非负矩阵分解算法。半监督非负矩阵分解不仅有非负矩阵分解的优势,可以有效学习目标中的局部信息,而且能够利用少量的标签信息,提高对高维数据降维的效果。该算法在深度框架下根据原始数据集中未知且不同的属性,学习出一种隐层的表示,并且对每一层降维后的两个矩阵引入了双正交约束,使得解具有唯一性,可以更好地进行聚类表达。更重要的是,该算法采用了多层的双超图流形学习,可以挖掘数据空间和特征空间中数据点之间的高阶关系,充分保留数据内在的流形结构。实验分析表明,在4个不同规模的测试数据集上与6种算法对比,该算法比其他先进的算法有着更好的效果。(5)提出了基于局部结构信息和判别信息的图卷积网络算法。该算法将传统的机器学习思想融入到图卷积网络中,以进一步提升特征提取的性能。图卷积网络虽然考虑了数据中的结构信息,但是构建的是同一特征图来进行图卷积,忽略了不同样本的局部结构之间的差异。为了挖掘原始数据中不同样本结构间的差异性,充分利用原始数据的几何结构信息,该算法对原始训练数据中的不同训练子块构建不同的特征图,可以有效地挖掘数据的局部几何结构。不仅如此,该算法引入了判别正则项,可以有效利用原始数据中的判别信息,使得算法具有更好的判别能力和鲁棒性。实验分析表明,该算法可以很好地实现特征提取任务,在分类准确率和F1值上,该算法要优于现有的方法。