基于Hadoop的SVM的设计和实现

被引量 : 0次 | 上传用户:linfenrir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量(Support Vector Machine, SVM)是数据挖掘中基于统计学习的分类算法,其优点体现在很少出现过度拟合、对于特征过多造成维数灾难不明显、收敛解是全局最优解以及灵活运用核函数特点,但SVM无法适用于大样本系统,在使用SVM对较大数据集进行分类训练时,训练速度特别慢,无法在有效的时间内得到训练结果或者训练模型;尤其是对于针对大规模数据集进行分类训练并进行预测时,其得到训练模型的代价是十分高昂的。针对大规模数据集处理,并行处理是一种提高数据处理的有效方法,基于Hadoop的并行存储处理数据是目前处理大规模数据集的一种可行的方案,并行处理SVM是指将数据集划分成子数据集的方式来迭代训练这些数据集以及由于数据集训练得到的支持向量进行逐次训练得到SVM训练的训练模型。本论文结合Hadoop的分布式存储以及并行计算的特点来设计和实现基于Hadoop的并行SVM训练,在不降低训练精度的情况下改善SVM针对大数据的训练时间效率。本论文解决的几个主要问题是首先是需要应对极端情况对数据集进行简单预处理,使得SVM训练集各个类别的数据分布比较均匀,来避免在Hadoop上训练SVM时在极端情况下不能得到训练结果的情况;其次是基于Hadoop的并行SVM训练是通过迭代的方式去训练的,所以需要使用相应的迭代停止条件去结束并行SVM训练算法的训练,本文结合停机准则条件去设计和实现判断整个并行SVM的训练进度:其他的问题则由于Hadoop的MapReduce本身的计算特点,即Map和Reduce计算都是只能处理一条记录以及迭代过程中会出现上一次结果的输出为下一次的输入,导致需要解决重新设计散列、在训练数据集上添加额外信息、转换输出格式以及指定特定的输出文件或文件夹等问题。
其他文献
中国博客在近几年得到了飞速发展。很多的企业争相涌入博客圈使得博客市场越来越大。作为网络营销中的新生力量,理论上博客营销拥有无与伦比的优势。尽管博客已经成为一种新
随着产品规模及复杂度增加,越来越呈现出多领域、强耦合的特点,产品开发难度大、周期长、成本高,整个产品的设计工作已经难以由设计者单独来完成,而是变成一个具备多学科性和
我国长期以来财政性资金的缴库和拨付是通过征收机关和预算单位设立多重账户分散进行的。但是,随着我国社会主义市场经济体制的逐步建立和公共财政管理框架的初步构建,它的弊
信息技术的发展推动了企业资源计划系统、决策支持系统、乃至于商务智能系统应用需求的迅速提升。但随着企业对ERP等管理信息系统应用的逐步深入,企业与银行之间缺少信息共享
卫星通信地球站要依靠无线电波来工作,需要实现无线电波的辐射和接收,我们把辐射和接收无线电波的装置称为“天线”。一副卫星通信地球站天线的性能好坏,在很大程度上决定了
生态观光农业旅游在我国经过20多年的发展已经成为旅游者观光、休闲、度假的主要旅游形式之一。随着农业旅游的发展,各级政府将其看作是提高农民收入、改善农村面貌的动力,于
改革开放以来,随着社会主义市场经济体制的不断完善和单位体制的日趋瓦解,城市社区承担了越来越多原来由政府和企事业单位承担的社会管理和社会服务职能,城市社区的功能不断
文章简要论述了企业培训的理论研究和发展状况,对国内外的企业培训现状进行了分析,并针对企业的实际情况,对企业培训的内容、计划、实施方法进行了探讨.
创新已经成为二十一世纪经济增长与发展的主旋律,它决定着一个国家或组织在未来发展中能否保持可持续的竞争优势。在知识经济时代,知识、信息和人力资本成为经济发展首要推动