基于k-means聚簇的分布式并行SVM算法优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lazylazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,网络产生的数据量增速惊人,数据结构的复杂程度也越来越加剧,那么如何从海量复杂数据中挖掘出有用信息成为目前众多学者研究的热点问题。支持向量机(Support Vector Machine)是一种非常著名的有监督的数据分类方法,具有预测准确率高、很少出现过拟合现象以及较少参数调优等优点,成为解决分类问题的首选方法。但是当数据集规模很大甚至远超过单节点计算机的存储和处理能力时,传统的单机SVM由于占用内存大、训练时间长等限制了其在大数据领域的应用。经研究发现,基于集群方式的分布式处理能够有效缩短训练时间,解决内存占用大的问题。因此,研究分布式并行计算的SVM算法尤为重要。目前,预测准确率相对较高的分布式并行SVM算法大都采用多层迭代全反馈的机制实现。多层迭代即逐层剔除非支持向量保留支持向量的过程,那么最终保留下来的支持向量就是原始训练集的全局最优解。这些算法都采用随机划分(RP)的方法生成并行训练的子样本集。经实验测试发现,使用随机划分生成子样本集的方法存在两点不足:(i)生成的子数据集的分布情况与原始数据集的分布情况很可能存在偏差;(ii)在并行环境下,每次训练使用的子样本集可能均不相同。因此得到的整体训练模型并不可靠,最终训练预测的准确率较低且多次训练结果存在明显的抖动现象。为此,本文提出一种基于k-means聚簇生成子数据集的并行SVM优化算法,使用无监督的k-means聚类算法导向性的划分数据集,从而有效避免随机划分存在的问题。将并行SVM优化算法部署到目前流行的分布式计算平台-Hadoop平台上,完成实验数据集的测试。实验数据结果表明,本文提出的优化算法既能有效减轻随机划分方式划分数目增多时,子数据集的分布情况与原始数据集的分布情况存在的偏差,又能减少整体训练模型的抖动。因此,该算法具有较强的鲁棒性和较好的泛化学习能力。
其他文献
工作流是针对工作中具有固定程序的常规活动而提出的一个概念。通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的
框架技术与设计模式是J2EE中重要的软件重用技术,框架技术的应用提高了软件的开发效率,增强了系统的可重用性、健壮性和可伸缩性,几乎所有框架技术都会使用某种或多种设计模式。
随着移动通信特别是无线通信的发展,移动计算将成为一种重要的计算模式。这种计算所采用的设备多为便携式计算设备,例如笔记本、掌上电脑或个人数字助理等。由于移动计算环境
数字水印技术和数字签名技术是信息隐藏的两个重要分支,将标识作者版权的保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分非法拷贝传播和保护知
互联网技术的飞速发展对计算机存储系统性能和数据的可用性提出了越来越高的要求。新的基于IP的网络存储系统逐渐成为业界关注的焦点,在这种新的存储架构下,如何采用有效的数
地理信息系统(Geographical Information System,简称GIS)以数字化的形式反映人类社会赖以生存的地球空间数据以及描述这些空间数据特征的属性数据,支持空间数据及其属性数据的
学位
与时间相关的数据库应用需求的不断增长,使得时态数据库设计成为非常重要的问题。由于现实世界中的许多应用所涉及到的时态类型集都能满足全序关系,而具有全序时态类型集的全
迁移工作流是近年来工作流技术发展的一个新方向。迁移工作流引擎、迁移实例和工作位置是构成迁移工作流管理系统的三要素。迁移工作流引擎完成工作流过程定义、迁移实例生成
随着云计算技术的日益发展,越来越多的个人与企业开始使用廉价、便捷的云存储服务以转移运算与存储,该模式下,产生了大量的冗余数据。为了节省用户的上传带宽和云服务提供商