论文部分内容阅读
支持向量机(Support Vector Machines,SVMs)算法是目前统计机器学习领域研究最热门、应用效果最好的算法之一。支持向量机的研究工作主要分为两类,一类是面向高效率的单机支持向量机算法;另一类是高效的分布式支持向量机算法。但是,现有的快速支持向量机训练效率依然很慢,如何解决这些问题并进一步提高支持向量机的效率,仍然是一个很值得研究的课题。本文针对支持向量机中如何快速地得到训练模型进行了研究。第一,针对支持向量机在单机大数据集的环境下存在训练时间长、效率低效的问题,提出了基于一个方向指示器的支持向量机DISVMs(Directional Indicator Support Vector Machines)算法。其基本思想是,为了识别对分离超平面不起作用的非支持向量,提出了方向指示器的概念,用来定量分析支持向量与非支持向量的位置关系;同时为了防止识别错误的事务的发生,提出了一种基于投票机制的非支持向量的确认算法;在剔除非支持向量后剩余的数据使用支持向量机算法进行训练,得到最终模型。与现有算法相比,DISVMs在不损失精度的情况下,可以更快速的识别非支持向量,大量减少训练时间。第二,针对现有分布式环境下层叠支持向量机算法低效的问题,提出了一种多模混合层叠支持向量机MMCascadeSVMs(Multi-Mode Cascade SVMs)算法。其基本思想是,为了减少层叠支持向量机中最底层模块中的非支持向量,从而减少瓶颈模块的训练时间,将上述提出的基于方向指示器的支持向量机算法进行并行优化,降低最底层瓶颈模块的训练时间;为了减少层叠支持向量机树形结构中性价比低的层次,重塑其树形结构,根据局部模型构建层次全局模型,并提出了层次相似度的概念,用来衡量在分布式环境下层叠支持向量机层次间的相似度,减少相似度高的层次结构,并以此为依据提出了一种自适应的层叠支持向量机停机算法,修改层叠支持向量机的树形结构,使数据按照新型层叠支持向量机的结构流动进行模型训练;同时层叠支持向量机结构发生改变停机后,产生了多个局部模型,针对多局部模型预测新样本问题,提出了一种多模混合层叠支持向量机的预测算法。与现有的分布式环境下层叠支持向量机算法相比,MMCascadeSVMs提高了算法的效率,同时保证了算法的精度不受损失。