结合ELM和非负矩阵分解的数据表示方法的研究与应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jingjing0890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,海量高维数据不断涌现,高维数据明显增加了计算,存储的代价,给机器学习,模式识别等提出严峻的挑战,如数据灾难。数据降维能有效地避免维数灾难,已经成为图像检索,模式识别,机器学习等领域的热点问题。其中非负矩阵分解(Non-negative Matrix Factorization,NMF),是一种强大的数据降维工具,已经在机器学习(如分类,聚类问题)领域得到广泛使用。面对高维数据,无约束NMF需要花费大量的计算,运行速度慢。针对这一缺陷,Qing He提出的NMF结合Extreme Learning Machine(ELM)特征映射的方法(EFM NMF)可以有效的减少NMF的计算量。然而以随机参数生成为基础的ELM特征映射是非线性的,这将会降低无约束的NMF生成的子空间中数据的表示能力。针对EFM NMF中数据表示能力降低的问题,本文提出一种改进的EFM NMF数据表示方法EFM GNMF。通过结合ELM特征映射与图正则化非负矩阵分解(Graph Regularized Nonnegative Matrix Factorization,GNMF)的方法,在不降低NMF生成子空间中数据表示能力的情况下,有效减少NMF计算运行时间。在当前大数据环境下,Hadoop作为开源项目,是当前流行的云计算平台,其以HDFS和Mapreduce两项核心技术为基础。由于在单一节点下不能完成海量数据的存储和分析工作,本文详细分析了Hadoop分布式平台,在Mapreduce编程框架下,对EFM GNMF算法进行了并行化分析和实现。本文详细分析了EFMGNMF并行化中的两点:(1)Mapreduce框架下矩阵的相乘,详细介绍几种不同的矩阵相乘;(2)Mapreduce框架下GNMF中K近邻图矩阵的计算,一般的K近邻图矩阵计算在Mapreduce框架下时间复杂度高,本文将介绍一种近似K近邻的方法来构造K近邻图矩阵。本文将在Matlab环境下,用COIL20图片库,CMU PIE人脸数据库和TDT2文本数据库进行实验,对EFM GNMF的有效性进行分析。完成EFM GNMF的并行化,在Hadoop环境下对EFM GNMF的计算效率进行测试。
其他文献
偏好处理是人工智能中的一个重要的研究内容。CP-nets(conditional preference networks,条件偏好网)是一个带标记的有向图,它编码相关变量之间的偏好关系。作为一种简单直观
随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的
随着嵌入式技术和无线通信的快速发展,无线传感器网络及其应用广泛应用于军事、环境监测和医疗救灾等领域,人们对于其性能等要求也越来越高。一般网络部署节点众多,环境复杂,且由
近年来,随着计算机处理能力的不断提高,互联网技术取得了飞速发展,各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集和整合在一起,互联网中的网页数目激增。在当
伪随机数发生器在计算机仿真和信息安全领域都有着广泛的用途,伪随机数序列的随机性、不可预测性以及产生速率对应用系统的效率和安全性具有重要价值。本文设计了一种基于超素
随着二十世纪信息技术、多媒体技术和网络技术的快速发展,多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源,音频样例检索技术受到越来越多的关注。音频样例检索是
随着无线传感器网络向着廉价性、智能性、多功能性趋势发展以及短距离无线通信技术ZigBee的日趋成熟,设计出一种灵活高效、可扩展性和兼容性并存的低功耗节点软硬件体系结构并
随着互联网技术的飞速发展,IPv4(Internet Protocol Version4)的不足对互联网发展产生的负面影响显得越来越明显。互联网发展到今天,IPv4暴露出若干问题,而其中最为显著的便是IPv4
21世纪,人类进入互联网时代,人们的生活越来越离不开网络。在网上聊天,分享心情,传递照片,进行影视创作,尤其是移动互联网出现后,网上的信息交流更成为了日常生活的一部分。
核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库,对于分析不