论文部分内容阅读
随着计算机软硬件技术和图像处理技术的飞速发展,基于图像的目标识别技术在航空航天的科学探测和天文观测、民用领域的视频监控以及军事目标跟踪等方面有着越来越广泛的应用。AdaBoost算法是一种在目标识别中使用比较广泛的集成学习方法。其基本思想是通过设定所要训练的弱分类器数目,对同一个训练集训练弱分类器,然后把这些弱分类器集合起来,构成一个更强的最终的强分类器。本论文主要在AdaBoost算法框架下,研究不平衡样本数据的分类算法和复杂场景下目标的识别算法。当样本数据不平衡时,针对传统AdaBoost算法进行过采样时会带来难以分类的样本数据;以及在复杂的场景下进行目标识别时,传统的AdaBoost算法会因特征噪声样本的存在而造成分类性能下降。基于以上问题进行研究,提出了一种基于GentleAdaBoost的过抽样算法和一种抑制错分样本的AdaBoost算法。论文首先分析了Boosting算法和AdaBoost算法的理论和算法框架,在此基础上,从UCI机器学习库中选择Breast Cancer Wisconsin数据集进行实验,对Gentle AdaBoost算法的稳定性进行了分析,并寻找AdaBoost算法最稳定的弱分类器迭代次数,为论文后续工作提供理论依据。其次,针对传统算法在处理不平衡样本数据分类时会引入难以分类的样本数据,造成分类性能下降的问题,提出一种针对不平衡数据集分类问题的结合过抽样和GentleAdaBoost算法的新算法。算法首先考虑到GentleAdaBoost算法的分类器在训练时错分样本具有被赋予较大权重的特点,确定所要复制样本的权重阈值;然后,在该阈值范围内选取一定数量的少数类样本进行复制;接下来采用上述数据集进行分类器的训练,得到相应的弱分类器;重复上述步骤进行迭代,这样在完成平衡数据集的同时得到强分类器。整个过程可以避免对数据过抽样时引入奇异样本的问题。算法在UCI数据库中的数据进行实验,并与多种算法进行实验对比,并对实验结果进行分析。实验证明了本文算法的有效性。最后,在分析了传统Gentle AdaBoost算法框架和存在的问题的基础上,针对传统Gentle AdaBoost算法在复杂场景目标识别时,存在的错分样本在训练过程中权重过大而造成分类性能下降的问题,在经典的Gentle AdaBoost算法框架下,提出一种新的、能抑制错分样本的、复杂场景目标识别的AdaBoost算法。算法首先利用损失函数构建一个特征样本的错分率矩阵,并寻找矩阵错分率最大的样本作为阈值,剔除部分对分类器性能有影响的错分样本。并在MIT提供的LabelMe数据库中的真实复杂场景图像上进行实验。实验表明,与传统算法相比,我们提出的算法提高了复杂场景目标检测的稳定性。本文算法都以UCI数据库和MIT的LabelMe数据库中的数据以及复杂场景图像作为实验对象,完成对数据的实验分析和对比。实验环境为:硬件环境为Intel(R) Core(TM)2Quad CPU Q8400处理器,4G内存,操作系统为MicrosoftWindows7Service Pack1,实验开发环境是Matlab-7.10.0。