论文部分内容阅读
随着互联网技术、图像技术以及多媒体技术的发展,各类数字图像处理技术的应用越来越广泛。海量的数据集要求用户用一种符合人类感知认知机理的、基于语义概念的图像检索系统来对图像进行有效的管理与组织。构造一个基于语义的图像检索系统,图像的语义标注是关键的步骤,这将跨越底层视觉特征和高层语义之间“语义鸿沟”,因此图像语义区域标注成为研究的热点。图像语义标注中存在图像区域视觉特征相似而类别却不相同的多义性问题,传统的标注方法直接利用区域视觉特征进行分类,无法解决这种多义性问题。很多学者直接借用文本处理中的主题模型来处理多义性问题,但这些方法存在以下几点问题:对于两类图像标注问题,忽略了图像原始视觉特征,仅仅使用了生成的主题特征,这将影响标注精度;对于多类标注问题,这些方法不具有直接输入多种特征的能力而输入单一特征或者拼接特征,这样将会因为不能充分利用图像信息或高维问题而无法获得理想的标注效果。针对以上问题,本文基于LDA模型,对图像语义区域标注模型进行研究,主要工作和成果如下:1、针对两类标注问题使用主题模型中忽略原始特征的问题,提出一种基于有监督的图像标注模型LDC。该模型以有监督的方式训练获得图像主题特征,同时系统、理论地结合图像区域主题特征、原始视觉特征及区域类别进行标注,可以获得更好的标注效果。2、针对LDC模型迭代过程有嵌套迭代,用在规模较大的数据集上时间开销过大的问题,提出一种基于样本加权的标注算法LDA-C。该算法利用LDA模型生成主题特征,利用LDC模型中样本加权的分类思想获得图像区域类别,以牺牲少量标注精度获得时间开销上的优势。3、针对多类标注问题使用主题模型无法输入多种特征的问题,提出一种基于多特征的Multi-cue s-LDA模型。该模型能直接输入多种特征,不同类型特征分别量化获得词汇表,相对以往的特征拼接做法,可以在控制词汇表容量的同时获得较高的量化精度,在多类的图像区域标注问题上获得了很好的效果。