论文部分内容阅读
目前,车辆识别在科研和商业上引起了很大的关注,它在智能迁移系统中起到重要的作用,并已被广泛地运用于各种安全领域,例如:政府大楼,军事阵地,国家边防,交通堵塞,停车问题以及交通事故等。人们通过抽取车的属性来对其进行分类,车标的形状、牌照、颜色以及型号等都是车的属性。现有的大部分车辆分类系统都是通过车牌照来实现,但是如果在雾天,车牌丢失或遮挡的情况下,将不能通过车牌照来对车辆分类识别。车的另一个重要的属性是车标,它包括了车辆的重要信息,并且不容易被改动,因此车标在车辆识别中取到重要的作用。因此本文提出采用车标来对车辆进行分类识别,这个方法基于支持向量基(SVM)分类方法,支持向量机是一个基于统计学的数据挖掘算法。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。并且利用集成学习来提高分类性能。本文还通过欠采样和对支持向量机的集成学习来提高分类算法的准确率。本文所使用的四种车标类标,分别是“大众”、“现代”、“尼桑”和“丰田”。首先建立支持向量机模型,从车标图像中抽取它的二维主成分(2DPCA)作为特征属性,和主成分分析(PCA)不同的是,2DPCA基于二维矩阵,而PCA是一维的,这样的话,原始图像矩阵就不用转换成向量了。然后从原始的车标图像矩阵中构建图像的协方差矩阵,支持向量机采用抽取的图像的特征属性作为输入,通过最大化车标属性之间的间隔,达到车辆分类的目的。SVM利用抽取出来的属性作为类标分类器的输入。现存多个使用SVM为基分类器的多标记分类算法,其中一种是1-vs-all方法,本文在实验中采用这种方法,对每一个类标均建立一个二值分类器来使得其与其他类标区分开来。类标预测时,采用二值分类器对样本进行预测,选择预测置信度最大的分类结果作为其最终的分类结果,本文采用的LIBSVM算法是著名的SVM工具。通过对数据的预处理,将样本数据首先进行标准化和规范化,以及填充缺失值,数据的预处理对分类效果的影响是很大的,原始样本属性的取值可能会相差很大,而SVM算法需要计算两个样本在空间中的距离,如果不经过预处理,属性取值范围越大对距离计算结果的影响越大,因而会使得计算结果对其他取值范围较小的属性不公平。因此,标准化避免了数值计算中的困难,因为SVM算法中的核函数通常依赖于属性向量的内积。本文采用的是线性的标准化方案,将属性的取值均规范到[0,1]范围内。SVM分类效率依赖于核函数的选择,本文采用最常用的RBF核函数,RBF核函数将原始数据集转换到高维空间,使得数据样本线性可分。基于RBF核函数的LIBSVM方法,本文采用基于交叉验证的网格搜索方法来优化参数C和γ,通过尝试各种不同的参数值对(C,γ,),选取交叉验证结果最好的参数值对作为最有的核函数参数,在10折交叉验证中,对于“大众”和“尼桑”车标数据集,参数C的最优取值为C=2.0;对于“现代”和“丰田”车标数据集,参数C的最优取值为C=4.0;针对这四种车标数据集,参数γ的最有取值为γ=0.03125。本文采用五次5折交叉验证进行实验,重复迭代五次得到五个分类器。用这五个分类器分别对测试集进行预测学习,最后综合这五个分类器的预测结果即为测试集的最终标记结果。同时,本文采用K均值聚类方法来提高分类正确率,因为本文采用1-vs-all的策略来处理多类标问题,经过K均值聚类得到的簇中,正类样本和负类样本达到平衡,然后在每个簇中构建SVM分类器模型,最后综合每个模型的学习结果为最终的预测结果。由于本文采用1-vs-all的策略来处理车标数据集,对于属于某一类的样本其标记为1,否者为0,这将导致数据集的非平衡问题,本文分别采用欠采样技术和集成学习方法来处理车标数据的非平衡问题。欠采样技术从负样本中随机抽取一定量的数据样本,并结合所有的正样本构成训练集,重复迭代10次构成10个训练样本集,根据每个训练集训练得到10个分类器,使用每个分类器对要测试的车标数据集进行预测,综合每个分类器的预测结果即为测试集的最终分类预测结果。本文抽取不同比率(50%,75%,85%)的负样本数量作为训练集进行实验,实验结果表明从负样本集中随机选择85%的负样本子集协同正样本集一起作为训练集得到取得很好的分类结果,且欠采样技术提高了基于SVM的车标分类识别性能。Bagging集成学习通过多次重复有放回的采样方法,从原始数据集中抽取一定量的数据样本子集作为训练集,并基于每次获得的训练集学习得到多个分类器。本文提出基于集成学习的SVM车标分类识别方法,以SVM作为基分类器,通过从原始数据集中随机选择80%的数据样本作为训练集,多次迭代获得多个分类器,综合这多个分类器的预测结果作为车标测试数据集的最终结果,实验结果表明,基于集成学习提高了SVM车标分类识别的性能。