论文部分内容阅读
差分进化极限学习机(Differential Evolution Extreme Learning Machine,DE-ELM)是一种具有泛化性能好、分类精度高的机器学习算法,受到业界的广泛关注。然而随着数据爆炸式增长,传统DE-ELM很难满足海量高维数据处理的需求。开源云计算Hadoop平台具有成本低、容错率高、扩展性强的特点,对处理海量高维数据具有很强的适应性,为解决上述问题提供了有效手段。因此,如何将传统的DE-ELM并行化,部署到云计算Hadoop平台上具有重要的研究意义。本文在云计算Hadoop平台研究了差分进化极限学习机分布式算法,并对分布式算法早熟收敛问题进行了改进。主要工作如下:(1)针对DE-ELM处理海量高维数据时计算复杂速度慢的瓶颈,提出了基于云计算Hadoop平台的差分进化极限学习机分布式算法(MapReduce of Differential Evolution Extreme Learning Machine,MRDE-ELM),提高了算法的运行速度。算法的主要思想是:MR-DE-ELM计算最复杂的部分是大规模矩阵乘法和大规模矩阵转置的运算,根据矩阵乘法每个元素的计算彼此间不存在依赖关系,采用并行计算,把大规模矩阵乘法转换成向量点乘和向量求和两个过程;通过合理设定元素的(key,value)键值对,实现大规模矩阵的转置。实验表明MR-DE-ELM提高了处理海量高维数据的能力。(2)分析MR-DE-ELM,针对差分进化算法(Differential Evolution,DE)早熟收敛,导致MR-DE-ELM的分类精度不足的问题,提出了基于双种群双策略的改进差分进化极限学习机分布式算法(MapReduce of Differential Evolution Extreme Learning Machine based on Dual-populations and Dual-strategy,MR-DpsDE-ELM),提高了算法的分类精度。算法的主要思想是:首先,在进化过程中将种群划分成两个子种群,每个子种群在变异、交叉阶段分别设定不同的变异策略和交叉算子。然后,并行独立进化每个子种群且互不干扰,设定进化代数mG,判定子种群间是否进行信息交换,如果进行信息交换,比较各个子种群的最优个体,用最优个体淘汰其余种群的最差个体。最后,设定最大迭代次数maxG作为算法的停止条件。实验表明MR-DpsDE-ELM改善了早熟收敛现象,提高了分类精度。