【摘 要】
:
由于其良好的泛化性能和快速的学习速度,极限学习机(Extreme Learning Machine)和在线顺序极限学习机(OS-ELM)被广泛应用在文本分类、图像识别、生物信息学等领域。然而现实
论文部分内容阅读
由于其良好的泛化性能和快速的学习速度,极限学习机(Extreme Learning Machine)和在线顺序极限学习机(OS-ELM)被广泛应用在文本分类、图像识别、生物信息学等领域。然而现实世界中数据量越来越大,传统的集中式极限学习机(ELM)已经不能高效快速的对规模如此之大的数据进行学习。Apache Flink是一个高效、分布式、可扩展性和容错性强的基于java实现的面向大数据的分布式内存计算平台。本文基于Flink设计并实现了并行极限学习机算法(PELM)和并行在线极限学习机算法(POS-ELM)。大规模数据集可以存储在分布式文件系统上,中间计算结果存储在分布式内存上。PELM和POS-ELM可以利用集群中的机器对大规模数据集进行分布式并行处理,弥补了传统的集中式极限学习机算法在处理大数据集方面的不足。在算法的并行设计和实现过程中,主要采用了如下方式对算法进行了并行化设计、实现与优化。(1)首先对ELM和OS-ELM计算过程进行分析和拆解,将算法整个流程划分为各个子步骤。接着深入分析了子步骤之间的数据依赖关系和处理瓶颈,将数据处理和矩阵运算划分为并行部分和不可并行部分,对ELM和OS-ELM进行了合理的并行化设计。(2)由于Flink上的编程模式是MapReduce,接着对ELM和OS-ELM算法进行了基于MapReduce模型的并行化设计。(3)深入分析了基于MapReduce模型的分布式并行处理过程中的瓶颈,通过合理的数据划分来减少算法并行过程中的同步和数据通信时间,从而提升算法的并行处理性能。(4)为了进一步提升算法的性能,使用java线性代数库Matrix来优化矩阵相乘。实验结果表明,PELM和POS-ELM不仅具有串行ELM算法的训练精度和泛化能力,还具有很好的扩展性和很高的加速比。
其他文献
土体受外部荷载的作用和土体本身含水量的变化都会使之发生变形。湿化变形是指非饱和天然土在所受外部荷载不变的情况下,含水量由天然状态增加至饱和状态过程中所发生的变形
创新是社会发展的不竭动力,税收激励作为一项促进企业开展研发活动的有效工具在各个国家被广泛使用。本文通过对“税收激励与研发投入”、“研发投入与专利产出”、“研发投
小麦是我国重要的粮食作物,对保障国家粮食安全具有重要意义。本实验室前期利用7Li离子束诱变冬小麦品种轮选987(WT)获得一个茎秆阶段性快速发育突变体(quick development mutan
Pan-sharpening是多光谱遥感图像处理任务中将原始的多光谱(MS)图像和全色(PAN)图像进行融合获得高分辨率多光谱图像的一种方法。论文围绕Pan-sharpening的两个主要目标:光谱
近年来,因为超级电容器的大比电容量,高效的充电/放电速率和卓越的循环稳定性等优点,其在储能系统中的应用引起了越来越多的研究兴趣。研究人员最近集中于研究开发纳米结构的
在电力系统中,变压器属于最重要的大型电气设备之一,变压器可靠运行也是保证电力系统整体稳定的关键环节之一。近年来,我国经济高速发展,用电需求逐年增加,电压等级更高、变
僵尸企业的问题已经得到了社会的广泛关注,探明僵尸企业“僵而不死”的原因具有较为重要的理论和现实意义。僵尸企业是指虽然缺乏持续盈利能力,但仍在经营而没有退出市场的、
在国民经济快速发展的今天,文旅产业兴起,历史古镇凭借其独特的文化资源迎来了新的发展机遇,因此对古镇空间秩序与社会秩序的研究便成为时下热点,其中社会秩序作为古镇秩序的
驻波直线超声电机是一种利用摩擦驱动的新型特种电机。因其结构简单、驱动效率高等优点而备受青睐。由于驻波超声电机的振子和动子是间歇、冲击接触的、接触应力大,导致摩擦
空间是一个复杂的环境,暴露在这个环境下的生物,不但受到微重力的影响,更重要的是生物会受到来自银河宇宙、太阳和地球磁场捕获带来源的辐射,而诱发一系列生物学问题。空间辐