基于k-means聚簇的分布式并行SVM算法优化

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：lazylazy

【摘要】

：

随着网络技术的迅猛发展,网络产生的数据量增速惊人,数据结构的复杂程度也越来越加剧,那么如何从海量复杂数据中挖掘出有用信息成为目前众多学者研究的热点问题。支持向量机(

【作者】

：

王瑞

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2015年期

【关键词】

：

支持向量机聚簇分布式计算随机划分 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的迅猛发展,网络产生的数据量增速惊人,数据结构的复杂程度也越来越加剧,那么如何从海量复杂数据中挖掘出有用信息成为目前众多学者研究的热点问题。支持向量机(Support Vector Machine)是一种非常著名的有监督的数据分类方法,具有预测准确率高、很少出现过拟合现象以及较少参数调优等优点,成为解决分类问题的首选方法。但是当数据集规模很大甚至远超过单节点计算机的存储和处理能力时,传统的单机SVM由于占用内存大、训练时间长等限制了其在大数据领域的应用。经研究发现,基于集群方式的分布式处理能够有效缩短训练时间,解决内存占用大的问题。因此,研究分布式并行计算的SVM算法尤为重要。目前,预测准确率相对较高的分布式并行SVM算法大都采用多层迭代全反馈的机制实现。多层迭代即逐层剔除非支持向量保留支持向量的过程,那么最终保留下来的支持向量就是原始训练集的全局最优解。这些算法都采用随机划分(RP)的方法生成并行训练的子样本集。经实验测试发现,使用随机划分生成子样本集的方法存在两点不足:(i)生成的子数据集的分布情况与原始数据集的分布情况很可能存在偏差;(ii)在并行环境下,每次训练使用的子样本集可能均不相同。因此得到的整体训练模型并不可靠,最终训练预测的准确率较低且多次训练结果存在明显的抖动现象。为此,本文提出一种基于k-means聚簇生成子数据集的并行SVM优化算法,使用无监督的k-means聚类算法导向性的划分数据集,从而有效避免随机划分存在的问题。将并行SVM优化算法部署到目前流行的分布式计算平台-Hadoop平台上,完成实验数据集的测试。实验数据结果表明,本文提出的优化算法既能有效减轻随机划分方式划分数目增多时,子数据集的分布情况与原始数据集的分布情况存在的偏差,又能减少整体训练模型的抖动。因此,该算法具有较强的鲁棒性和较好的泛化学习能力。

其他文献

基于免疫理论的迁移工作流实例安全路径规划研究

工作流是针对工作中具有固定程序的常规活动而提出的一个概念。通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的

学位

迁移工作流迁移实例路径规划免疫算法克隆

基于Struts、Spring和Hibernate整合开发技术的研究与实现

框架技术与设计模式是J2EE中重要的软件重用技术，框架技术的应用提高了软件的开发效率，增强了系统的可重用性、健壮性和可伸缩性，几乎所有框架技术都会使用某种或多种设计模式。

学位

设计模式框架技术软件开发

基于Mobile Agent的服务订阅与发布系统研究

随着移动通信特别是无线通信的发展,移动计算将成为一种重要的计算模式。这种计算所采用的设备多为便携式计算设备,例如笔记本、掌上电脑或个人数字助理等。由于移动计算环境

学位

Mobile AgentWeb servicesSubscribePublish

结合数字水印与数字签名的认证算法的研究

数字水印技术和数字签名技术是信息隐藏的两个重要分支,将标识作者版权的保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分非法拷贝传播和保护知

学位

数字水印数字签名离散余弦变换自适应水印自嵌入水印

基于iSCSI协议的网络存储技术及数据布局研究

互联网技术的飞速发展对计算机存储系统性能和数据的可用性提出了越来越高的要求。新的基于IP的网络存储系统逐渐成为业界关注的焦点,在这种新的存储架构下,如何采用有效的数

学位

网络存储数据容错数据布局互联网小型计算机接口

基于J2EE的WebGIS研究与应用

地理信息系统(Geographical Information System，简称GIS)以数字化的形式反映人类社会赖以生存的地球空间数据以及描述这些空间数据特征的属性数据，支持空间数据及其属性数据的

学位

WebGISJ2EEOracle spatialServletJSPMapXtreme

基于异质网络的lncRNA-疾病关联预测

学位

全序时态模式下函数依赖集覆盖问题的研究

与时间相关的数据库应用需求的不断增长,使得时态数据库设计成为非常重要的问题。由于现实世界中的许多应用所涉及到的时态类型集都能满足全序关系,而具有全序时态类型集的全

学位

全序时态模式规范化全序初等关键字范式覆盖成员籍

支持异常处理的迁移工作流服务方法研究

迁移工作流是近年来工作流技术发展的一个新方向。迁移工作流引擎、迁移实例和工作位置是构成迁移工作流管理系统的三要素。迁移工作流引擎完成工作流过程定义、迁移实例生成

学位

迁移工作流工作流服务异常处理补偿基于案例的推理

云存储加密文件去重复化删除方法研究

随着云计算技术的日益发展,越来越多的个人与企业开始使用廉价、便捷的云存储服务以转移运算与存储,该模式下,产生了大量的冗余数据。为了节省用户的上传带宽和云服务提供商

学位

云存储云文件安全文件去重复化删除代理重加密

基于k-means聚簇的分布式并行SVM算法优化

与本文相关的学术论文