论文部分内容阅读
随着经济和互联网的快速发展,数码相机、智能手机等移动设备已进入千家万户,人们在生活中无处不使用到数字多媒体设备。无论是在学习、工作中,还是旅游、逛街等生活中的方方面面,我们都会通过移动设备以视频或者图像的形式来分享和记录自己日常的点点滴滴。因此,在网络中构成一个庞大的图像库。那么如何从这个庞大的图像库中搜索和利用自己想要的图像成为人们关注的焦点。为了使计算机能够更好地管理和组织这些图像,前提是能够让计算机对图像的内容进行分析和理解。图像分类是解决图像理解问题的重要途径,在图像检索技术的发展过程中起着至关重要的作用。目前,基于视觉词袋模型和支持向量机的图像分类技术已经成为图像分类的主流技术。在视觉词袋模型中,针对利用图像局部特征构造视觉词直方图中没有考虑图像.局部特征的空间信息问题。本文通过使用空间金字塔匹配模型来引入图像特征的空间位置信息。在空间金字塔匹配模型的基础之上,对视觉词袋模型中存在的缺陷提出了以下改进办法:(1)在视觉词袋模型中,针对k-means聚类构造视觉词典存在的缺陷,第三章提出了双词袋模型来构造更具有表征图像能力的视觉词直方图。它能够减少由于k-means算法的不稳定性和过于依赖初始聚类簇中心的选择给实验结果带来的干扰。采用双词袋模型构造视觉词直方图时,对于那些处于聚类边界中不稳定的视觉词和十分稳定的视觉词赋予不同的权重值,从而在空间金字塔匹配模型中得到更具有表征能力的视觉词直方图。通过支持向量机进行分类试验表明了该方法的可行性。(2)针对视觉词袋模型存在的不足:1、k-means算法的不稳定性和过于依赖初始聚类簇中心的选择给实验结果带来的干扰;2、没有考虑图像中不同区域的视觉显著性。第四章提出了一种基于视觉注意机制和空间金字塔匹配的图像分类方法。首先采用更加优异的模拟退火遗传的模糊C-均值聚类算法来构造视觉词典;然后将人类的视觉注意机制引入到空间金字塔匹配模型中,因为在现实生活中,图像的不同区域对于人眼的视觉冲击效果是不一样的;最后通过视觉注意机制构造加权的视觉词直方图。通过支持向量机分类表明,该方法更加符合人的视觉效果来对图像进行类别判断。