论文部分内容阅读
分治策略是处理大数据的基本策略,尤其是近年来在分布式有很大发展的情况下,分治策略显得尤为重要.但是大数据中冗余或噪声样本不仅会消耗存储空间,还会影响机器学习算法的计算效率和精度.因此,在大数据环境下样本选取或重抽样方法的需求更加迫切.本文以支持向量机作为突破口,对基于马氏抽样的支持向量机分布、集成学习等进行了系统研究.具体的研究工作概括如下:1.研究了基于一致遍历马氏链样本的支持向量机集成学习的泛化性能,建立了最优的学习速率.在理论研究的基础上,我们提出了两个基于马氏重抽样的支持向量机集成学习算法.公共数据集上的数值研究表明,相对于经典的集成算法而言,本文提出的两个基于马氏重抽样的支持向量机集成学习算法具有更小的错分率、更少的抽样和训练总时间.2.建立了基于一致遍历马氏链样本的支持向量机分布式学习的泛化界,并得到了最优的收敛速率.本文提出了一种基于马氏抽样的支持向量机分布式学习算法.公共数据集的数值研究表明,相对于经典的支持向量机分布式学习算法而言,我们提出的基于马氏抽样的支持向量机分布式学习算法具有更高的精度,更少的抽样和训练总时间.3.针对大数据环境下支持向量机的正则化超参数调优非常耗时等问题,本文提出了非正则化超参数调优的支持向量机算法.公共数据集上的数值研究表明,相对于经典正则化超参数调优的支持向量机算法而言,我们提出的非正则化超参数调优的支持向量机算法具有更高的精度,更少的抽样和训练总时间.作为应用,我们还研究了非正则化超参数调优的支持向量机分布式学习的泛化性能.