论文部分内容阅读
随着互联网技术的高速发展,来源于各行各业的数据正在以前所未有的速度增长,促使我们进入一个海量数据时代。面对海量数据,传统的数据挖掘技术在执行效率上受到了严峻的挑战,因此探索快速有效的加速学习算法是极其重要的。目前,现有的加速学习算法研究主要是关注大规模数据分类问题,回归与分类同等重要,但对于回归问题的研究相对较少。为此,本文以划分与抽样为研究策略,针对传统回归分析算法执行效率低的问题进行了系统性研究。主要工作概括如下:(1)利用分而治之思想提出了一种基于数据划分的核岭回归加速算法。首先利用一簇平行超平面将当前数据所在的空间划分为若干个互不相交的区域,然后在划分后的每个区域上训练核岭回归模型,最后每个核岭回归模型预测落入同一区域内的待识别实例。实验结果表明,提出算法的执行效率大幅度提升,为研究面向大规模数据的回归加速算法提供了一个可行性方案。(2)针对回归算法中核矩阵运算速度慢的问题,本文提出了一种基于两阶段抽样的核矩阵近似算法。首先使用聚类算法将数据分块,并采用抽样的策略分别计算每块数据核矩阵的低秩近似矩阵;然后基于标记信息构造块与块之间相互贡献的度量,进行二次抽样,抽取部分非对角块核矩阵;最后用对角块低秩近似矩阵来逼近非对角块核矩阵。实验表明该算法能够大幅降低核矩阵近似的计算量,提高了回归算法的执行效率,为研究大规模数据背景下基于低秩矩阵近似的高效回归加速算法提供了新的研究思路。本文针对回归分析处理海量规模数据效率较低的问题,提出了两种回归加速算法,在提高效率的同时兼顾了算法预测性能。本文的研究成果为大规模数据环境下的回归分析问题提供了新的策略,进一步丰富了回归加速算法的研究内容。