论文部分内容阅读
随着信息技术的快速发展,海量高维数据不断涌现,高维数据明显增加了计算,存储的代价,给机器学习,模式识别等提出严峻的挑战,如数据灾难。数据降维能有效地避免维数灾难,已经成为图像检索,模式识别,机器学习等领域的热点问题。其中非负矩阵分解(Non-negative Matrix Factorization,NMF),是一种强大的数据降维工具,已经在机器学习(如分类,聚类问题)领域得到广泛使用。面对高维数据,无约束NMF需要花费大量的计算,运行速度慢。针对这一缺陷,Qing He提出的NMF结合Extreme Learning Machine(ELM)特征映射的方法(EFM NMF)可以有效的减少NMF的计算量。然而以随机参数生成为基础的ELM特征映射是非线性的,这将会降低无约束的NMF生成的子空间中数据的表示能力。针对EFM NMF中数据表示能力降低的问题,本文提出一种改进的EFM NMF数据表示方法EFM GNMF。通过结合ELM特征映射与图正则化非负矩阵分解(Graph Regularized Nonnegative Matrix Factorization,GNMF)的方法,在不降低NMF生成子空间中数据表示能力的情况下,有效减少NMF计算运行时间。在当前大数据环境下,Hadoop作为开源项目,是当前流行的云计算平台,其以HDFS和Mapreduce两项核心技术为基础。由于在单一节点下不能完成海量数据的存储和分析工作,本文详细分析了Hadoop分布式平台,在Mapreduce编程框架下,对EFM GNMF算法进行了并行化分析和实现。本文详细分析了EFMGNMF并行化中的两点:(1)Mapreduce框架下矩阵的相乘,详细介绍几种不同的矩阵相乘;(2)Mapreduce框架下GNMF中K近邻图矩阵的计算,一般的K近邻图矩阵计算在Mapreduce框架下时间复杂度高,本文将介绍一种近似K近邻的方法来构造K近邻图矩阵。本文将在Matlab环境下,用COIL20图片库,CMU PIE人脸数据库和TDT2文本数据库进行实验,对EFM GNMF的有效性进行分析。完成EFM GNMF的并行化,在Hadoop环境下对EFM GNMF的计算效率进行测试。