支持向量机的一般化能力与训练样本关系的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yyandmwm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从支持向量机经验风险的利用、支持向量的合并约简以及训练样本的精简三方面进行论述。利用经验风险以提高分类器的泛化能力,对含有重复矛盾支持向量的合并约简以减少支持向量的个数并提高测试速度,对训练样本精简的目的是达到在泛化能力几乎没有下降的情况下提高支持向量机的训练速度并减少支持向量的个数。 训练支持向量机的过程之前往往要进行参数搜索以找到具有最优泛化能力的训练参数。在搜索过程中,有些参数使得经验风险几乎为零、泛化能力最好、支持向量很多,我们往往采用这些参数作为训练参数。有些参数使得经验风险较大、泛化能力比最好稍差、支持向量很少。我们的实验表明利用别的分类器结合后者的经验风险可以使后者的泛化能力比前者最好的泛化能力还要好。 有些训练样本中含有重复矛盾的样本,训练支持向量机的结果使得支持向量中仍然含有重复矛盾的支持向量,通过我们的合并约简算法可以减少支持向量的个数,减少的程度与样本重复的程度有关。样本重复度高,减少的比例就大,反之减少的比例就小。 支持向量机基于统计学习理论并能较好的解决好小样本问题,但对许多含有大数量样本的数据库来说,他们并不非常适合于支持向量机。训练样本的数量严重影响训练的速度与支持向量的数量。我们的实验表明,保留训练样本的边界样本,去除部分非边界样本可以明显的减少训练样本的数量,明显的减少支持向量的个数,而泛化能力几乎没有下降。
其他文献
由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。话题检测与
多年以来,形式化规约(formal specification)一直是软件工程领域中的一个研究热点,它的应用范围也正在逐步增长。许多研究表明,对形式化规约的错误检测能够大幅度减少软件工程项
传统的通用Web搜索模型检索的是与查询相关的所有领域的信息,并且只能以网页的形式作为返回结果进行展示。从某种意义上说,用户对返回的成千上万个网页并没有任何兴趣,用户真正
计算机和网络通信技术的迅猛发展,Internet技术的兴起和广泛应用,有力地促进了网格计算环境下的商业应用发展和科学应用研究。网格的目标是将地理分布、系统异构、性能各异的各
网络应用体系结构的发展,产生了中间件技术,消息中间件技术是中间件技术的发展热点。计算机网络环境的日益复杂使分布式网络通信面临着巨大的挑战,而消息中间件技术无疑是分布式
车辆定位系统应用广泛,其移动终端是该系统的重要部分,主要有两项核心技术:通讯和定位。计算机和通信技术的飞速发展解决了车辆定位系统的移动终端的通讯问题,而美国全球卫星
随着流媒体相关技术的进步,基于Internet的多媒体远程教学系统引起了越来越多的关注。本文就多媒体远程教学系统中的若干关键问题进行了研究和探讨。本文讨论了基于B/S结构的
实时、准确的对道路上发生的停车与抛落物事件进行检测对避免交通事故具有重要意义。目前已有的检测算法不但需要对背景进行准确的建模,而且大多数都利用面积等二维图像特征
随着中国互联网的飞速发展,中文互联网页在5 年内增长了120 倍,可查网页数已经达到6 亿。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同时,也向人们提出了如何快速从
在时态数据库中,时间粒度是衡量时态数据的单位,通常用时态类型来表示时间粒度。而对时间粒度的定义有粗有细,TDBMS除了支持系统定义的标准时间粒度之外,还应支持用户定义的各种