论文部分内容阅读
图像分类是当前计算机视觉研究的热点。该问题涉及两个重要的因素:一是图像的表示;二是分类算法的设计。在图像的表示上,词袋模型在信息检索领域的成功应用启发计算机视觉研究者利用局部特征形成词袋模型,为多类图像、目标提供一种统一的表示框架。研究证明词袋模型是一种有效的模式表示方法。然而,词袋模型假设视觉词之间是独立的,忽视了视觉词之间的关联性,从而,词袋模型在表示一些复杂图像时,其判别性不强,造成在多类图像分类时,分类性能不高。在图像分类中,支持向量机是一种流行的分类工具,然而,其核函数的选择极大的影响分类的性能。常用的核函数选择是基于大量的交叉验证,该方法费时耗力。本文针对词袋模型和支持向量机核函数的设计、选择方面的局限性,开展以下三方面的研究:1)基于空间几何关系的词袋模型设计;2)空间核函数的设计;3)基于多核选择的图像分类。 本文的主要创新和贡献为: (1)提出一种结合局部特征空间关系的EMD空间核。EMD空间核是一种组合核,由EMD核和空间核构成,其中空间核利用MSER特征区域和Hessian-laplacian特征的空间互补性质,进行两两图像之间特征的全局匹配,得到图像间的相似度。 (2)提出一种局部空间金字塔表示的图像特征表示方法。该方法利用了MSER特征区域和Hessian-laplacian特征的空间互补性质,首先在MSER区域进行四划分,第一层利用MSER视觉词对图像进行词袋表示,第二层,在MSER区域中对Hessian-laplacian特征的分布进行词袋直方图表示。实验表明在视觉目标分类问题上,本文提出局部空间金字塔表示比传统空间金字塔有更好性能。 (3)利用EMD核、局部空间金字塔匹配核等多种核函数进行多核学习,自动选择多核函数的组合系数,得到多核分类模型。实验表明根据不同情况自动分配核权重并选择是否加入空间信息辅助分类可以有效提升图像分类的准确度。