基于支持向量机增量学习的网页分类方法

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:flareleaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息含量的爆炸和过载给人们带来了Web时代的新挑战,网页分类是组织和利用海量互联网信息的一种有效途径。在已出现的多种网页自动分类算法中,支持向量机(SVM)学习能力出色,已成为机器学习领域的研究热点。经典的支持向量机训练算法是不支持增量学习的,若重新对所有样本进行训练非常浪费时间。因此,对支持向量机增量学习的研究具有重要的理论意义和实用价值。   本文介绍了支持向量机的发展、原理和相关技术,分析了目前支持向量机常用的训练算法和增量学习的多种方式,阐述了支持向量机核函数的原理和机制,讨论了全局核函数和局部核函数的优缺点。针对增量学习中筛选出的样本点信息含量不足或过于冗余的问题,提出了新的筛选模型,考虑支持向量的几何分布特征,利用超圆锥模型选出的样本点信息,能够有效进行增量学习,提高分类效率并降低分类时间。针对局部核函数学习能力良好但泛化能力差的缺点,提出结合全局核函数来构造新联合函数的方法,使其能够结合两类核函数的优点;针对核函数未考虑会受增量学习影响的问题,将增量过程中的影响因子加入到构造核函数中,使其适应增量学习,提高分类准确率。最后,将改进后的训练算法应用到网页分类系统中,并对改进算法进行了实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。
其他文献
移动机器人三维环境建模有着重要的研究价值和广阔的应用前景。在军事上,三维地形可视化能力可以为作战提供重要情报信息。在对未知或危险环境进行探索时,如进行太空、海底、
伴随着网络用户的急剧增加,网络拥塞控制问题显得越来越重要。然而传统的TCP拥塞控制协议是基于端系统的流量控制的,它们已经无法适应这些变化。微观经济学中效用和价格概念
Linux集群系统以其良好的性能得到了广泛应用,但是其存储系统的I/O效率严重制约着系统整体性能的提升,对于石油勘探中的地震资料处理这类巨量计算、海量存储的应用,系统的I/O
车辆匹配是智能交通系统的重要组成部分,其在停车场智能管理、道路监控、高速路自动收费、超时停车检测、以及高速公路服务区、停车场等场所的出入口车辆比对等处都有着广泛
动态三维物体的实时建模是当前计算机视觉、图形图像等领域的研究热点,旨在通过一定的方法和手段实时获取三维物体的多模式信息,并由此重建出其对应的三维模型。实时建模对三
随着科学技术的发展以及信息化的推进,计算机的应用领域越来越广阔,尤其是软件的发展使得软件产品成为各行各业不可或缺的工具。然而,随着软件功能的提高,软件的复杂性也随之
计算机网络的出现极大方便了人们之间信息的传输与获取,但也造成了数字化作品版权失控的问题。数字水印技术的产生,为多媒体数据版权保护、内容认证及操作跟踪的研究开拓了新
文本特征提取是从文本信息中抽取能够代表此类或某文本的信息。特征提取方法研究的目的是过滤数据噪音特征、选择最优的特征子集来优化文本的表示,实现文本数据降维并提高降
传统的分类问题中,一个实例只和一个类标号相关联,但是多类标号分类问题中,一个实例可以和多个类标号相关联,所以,与单类标号分类问题的任务不同,多类标号分类的任务是为一个
随着网络和多媒体技术的迅速普及和发展,越来越多的用户使用多媒体设备和网络获得并查询图像。因此图像检索已经成为一个研究的热点。现有的图像检索技术主要是基于文本查询