论文部分内容阅读
近年来,随着Internet的快速发展和普及,在网络上存储、传播着海量的信息和数据,尤其是图像和视频。因而,按照语义快速方便地分类和检索图像越来越重要。但是,由于光照、尺度、旋转、视角、姿态等变化,正确地识别场景和物体类别难度依然很大。此外,由于人们对图像的视觉感知不同所造成的视觉歧义,对识别算法提出了新的要求。本文主要研究如何快速准确地识别场景和物体类别。首先,本文设计了一个实用场景和物体类别识别系统并提出了一种新的多重特征通道图像表示。为了胜任不同的场景和物体类别识别任务,本系统首先从给定图像中提取多个特征“通道”,每个特征通道利用词包模型计算图像或子图像的视觉单词直方图,并通过空间金字塔引入单词之间的位置信息。各个特征通道的主要区别在于词包模型中采用哪种特征检测器/特征描述符组合,因而具有不同水平的辨识能力和不变性。这种多重特征通道图像表示为有效地组织和利用各种稀疏或稠密特征检测器、局部特征描述符提供了一个统一的框架。对于每个特征通道,该系统然后使用基于直方图交叉核或χ~2核的支持向量机计算图像属于各个可能类别的得分。最后利用逻辑推理或统计推理的方法,综合所有特征通道的识别结果得到测试图像的识别结果。基于多重特征通道的实用场景和物体类别识别方法计算复杂性低、通用性强,而且对基准场景和物体图像库的平均识别率高于大多数流行方法,表明了该方法的有效性和合理性。其次,本文研究了不同特征通道的组合问题,提出了四种规则(统称为x-max):max-max、sum-max、prod-max和classifier-max。x-max通过不同的方式组合各“单”特征通道的识别结果,进而得到图像的最终类别。其中,max-max、sum-max和prod-max分别由各单特征通道得分的极大值、算术平均值和几何平均值确定测试图像属于某个可能类别的得分;而classifier-max根据第一级分类器得到的各单特征通道的识别结果,由第二级分类器确定测试图像属于某个可能类别的得分。在x-max中,最后得分最高的类便是测试图像的识别结果。与场景和物体类别识别中两种最流行的特征组合规则(多核学习和线性规划提升)相比,x-max规则的优点有三:一是它基于分布式组合的思想,鲁棒性高,每个组合节点处理负担小,并便于并行处理;二是扩展性强,当加入新的特征通道时,只需学习与新特征通道有关的分类器,毋需重新从头开始学习所有分类器;三是计算复杂性低,适用于识别大型场景和物体图像库。对五个基准图像库的实验结果表明,与多核学习和线性规划提升相比,使用x-max组合多重特征通道,时间复杂度降低了1–2个数量级,平均识别准确率高于多核学习,并接近线性规划提升。最后,本文提出了一种新的基于金字塔主题直方图(PHOTO)和AdaBoost分类器的场景和物体类别识别算法。概率隐语义分析(pLSA)在文本语义分析和处理中用来挖掘文本文档的主题。本文在pLSA模型的基础上,通过空间金字塔引入位置信息,利用EM算法计算图像金字塔中各个单元格的主题混合系数向量,并拼接形成一个“长”向量(称为金字塔主题直方图(PHOTO))用来表征图像。然后使用AdaBoost算法的一种变形识别场景和物体类别。实际上,PHOTO相当于使用pLSA对金字塔单词直方图进行非线性降维,从而得到图像的低维语义特征。实验结果表明,PHOTO特征在大多数基准场景和物体图像库上取得了较为满意的结果,它尤其适用于识别场景图像。