论文部分内容阅读
机器学习的基本问题是利用模型对数据进行拟合,其目标是追求泛化能力.虽然深度学习被认为是机器学习发展史上的第二次浪潮,但深度学习一般需要大规模的训练数据,而实际应用中往往会遇到训练数据的规模相对较小的情形,这时采用支持向量机等浅层机器学习方法就可以很好地解决或处理.本文以支持向量机为突破口,对大数据环境下拉格朗日支持向量机、基于支持向量机的增量学习以及基于hinge损失的在线成对学习等进行了研究.主要研究内容与创新如下:(1)针对拉格朗日支持向量机,我们建立了基于一致遍历马氏链、强混合序列等非独立同分布样本情形下拉格朗日支持向量机的泛化界,得到了最优的收敛速率.作为应用,我们又建立了基于独立同分布样本情形下拉格朗日支持向量机的泛化界和收敛速率.(2)建立了独立同分布样本情形下,基于经典支持向量机、最小二乘支持向量机、拉格朗日支持向量机和结构支持向量机的增量学习的泛化界,得到了快的收敛速率.同时,我们还建立了一致遍历马氏链样本情形下,基于上述四种支持向量机的增量学习的泛化界和快的收敛速率.(3)建立了几何β-混合序列、V-几何遍历马氏链和一致遍历马氏链等样本情形下,基于hinge损失函数的在线成对支持向量机算法的泛化界,得到了快的收敛速率.作为指数强混合序列的特殊情况,我们又建立了独立同分布样本情形下,基于hinge损失函数在线成对支持向量机算法的泛化界,并得到了快的收敛速率.在理论研究基础上,我们提出了一种基于马氏选择性抽样的在线成对支持向量机算法.基于公共数据库的实验结果表明,相对于经典在线成对支持向量机算法而言,本文提出的基于马氏选择性抽样的在线成对支持向量机算法不仅有更小的错分率,而且抽样与训练总时间更少.