结合ELM和非负矩阵分解的数据表示方法的研究与应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：jingjing0890

【摘要】

：

随着信息技术的快速发展，海量高维数据不断涌现，高维数据明显增加了计算，存储的代价，给机器学习，模式识别等提出严峻的挑战，如数据灾难。数据降维能有效地避免维数灾难，已经成为图像

【作者】

：

曾志勇

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2014年期

【关键词】

：

非负矩阵分解 ELM 特征映射图正则化非负矩阵分解数据降维 Hadoop Mapreduce编程框架并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的快速发展，海量高维数据不断涌现，高维数据明显增加了计算，存储的代价，给机器学习，模式识别等提出严峻的挑战，如数据灾难。数据降维能有效地避免维数灾难，已经成为图像检索，模式识别，机器学习等领域的热点问题。其中非负矩阵分解（Non-negative Matrix Factorization，NMF），是一种强大的数据降维工具，已经在机器学习（如分类，聚类问题）领域得到广泛使用。面对高维数据，无约束NMF需要花费大量的计算，运行速度慢。针对这一缺陷，Qing He提出的NMF结合Extreme Learning Machine(ELM)特征映射的方法（EFM NMF）可以有效的减少NMF的计算量。然而以随机参数生成为基础的ELM特征映射是非线性的，这将会降低无约束的NMF生成的子空间中数据的表示能力。针对EFM NMF中数据表示能力降低的问题，本文提出一种改进的EFM NMF数据表示方法EFM GNMF。通过结合ELM特征映射与图正则化非负矩阵分解（Graph Regularized Nonnegative Matrix Factorization，GNMF）的方法，在不降低NMF生成子空间中数据表示能力的情况下，有效减少NMF计算运行时间。在当前大数据环境下，Hadoop作为开源项目，是当前流行的云计算平台，其以HDFS和Mapreduce两项核心技术为基础。由于在单一节点下不能完成海量数据的存储和分析工作，本文详细分析了Hadoop分布式平台，在Mapreduce编程框架下，对EFM GNMF算法进行了并行化分析和实现。本文详细分析了EFMGNMF并行化中的两点：（1）Mapreduce框架下矩阵的相乘，详细介绍几种不同的矩阵相乘；（2）Mapreduce框架下GNMF中K近邻图矩阵的计算，一般的K近邻图矩阵计算在Mapreduce框架下时间复杂度高，本文将介绍一种近似K近邻的方法来构造K近邻图矩阵。本文将在Matlab环境下，用COIL20图片库，CMU PIE人脸数据库和TDT2文本数据库进行实验，对EFM GNMF的有效性进行分析。完成EFM GNMF的并行化，在Hadoop环境下对EFM GNMF的计算效率进行测试。

其他文献

基于约束的CP-nets学习方法研究

偏好处理是人工智能中的一个重要的研究内容。CP-nets(conditional preference networks,条件偏好网)是一个带标记的有向图,它编码相关变量之间的偏好关系。作为一种简单直观

学位

偏好数据库G2检验学习精确P值计算因果关系人工智能推荐系统

多数据流频繁项集挖掘算法研究

随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的

学位

数据挖掘多数据流滑动窗口模型并行计算频繁项集协同频繁项集

基于排队Petri网的感知网节点能耗建模技术研究与实现

随着嵌入式技术和无线通信的快速发展，无线传感器网络及其应用广泛应用于军事、环境监测和医疗救灾等领域，人们对于其性能等要求也越来越高。一般网络部署节点众多，环境复杂，且由

学位

传感器网络排队Petri网节点能耗模型事件驱动生存时间

基于MapReduce的个性化PageRank算法研究

近年来，随着计算机处理能力的不断提高，互联网技术取得了飞速发展，各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集和整合在一起，互联网中的网页数目激增。在当

学位

MapReduce个性化PageRank算法归并算法

组合式伪随机数发生器的研究与设计

伪随机数发生器在计算机仿真和信息安全领域都有着广泛的用途，伪随机数序列的随机性、不可预测性以及产生速率对应用系统的效率和安全性具有重要价值。本文设计了一种基于超素

学位

伪随机数发生器超素数发生器奇偶性性能评估

音频样例检索的索引方法研究

随着二十世纪信息技术、多媒体技术和网络技术的快速发展，多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源，音频样例检索技术受到越来越多的关注。音频样例检索是

学位

音频检索样例检索索引近邻检索

基于ZigBee无线传感器网络的节点设计与定位研究

随着无线传感器网络向着廉价性、智能性、多功能性趋势发展以及短距离无线通信技术ZigBee的日趋成熟，设计出一种灵活高效、可扩展性和兼容性并存的低功耗节点软硬件体系结构并

学位

无线传感器网络节点设计定位算法井下定位

IPv4/IPv6过渡阶段应用代理系统研究与实现

随着互联网技术的飞速发展，IPv4（Internet Protocol Version4）的不足对互联网发展产生的负面影响显得越来越明显。互联网发展到今天，IPv4暴露出若干问题，而其中最为显著的便是IPv4

学位

IPv6过渡网络地址翻译协议翻译NAT46IVI

基于差值扩展的可逆数据隐藏

21世纪,人类进入互联网时代,人们的生活越来越离不开网络。在网上聊天,分享心情,传递照片,进行影视创作,尤其是移动互联网出现后,网上的信息交流更成为了日常生活的一部分。

学位

可逆信息隐藏扩展变换预测误差无损恢复载体图像网络信息安全

人体发音过程中的三维声道几何建模

核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库，对于分析不

学位

三维声道几何轮廓主成分分析多元线性回归密集控制集

结合ELM和非负矩阵分解的数据表示方法的研究与应用

其他学术论文