论文部分内容阅读
图像检索涉及到的研究范围比较广。本文仅对图像检索中所涉及到的图像分割、图像的自动语义标注以及标注图像的语义分类等几个关键性问题,进行了深入和系统的研究,提出了一些新的思想和方法。 在众多的图像分割方法中,基于特征空间聚类的混合模型方法常常能获得稳定的分割结果,而且 EM算法为模型参数提供了有效的极大似然解。然而混合模型方法是以像素的独立性假设为前提,没有考虑邻近像素间的类别相关性。而且 EM算法的贪心本质使其对初始值的选择具有很强的依赖性。另外,估计混合分量的个数仍是一个尚未解决的问题。为此本文在混合模型的参数求解过程中,利用空间域滤波方法对EM算法中的E步骤进行了限制,以使模型参数的求解受到像素位置关系的约束。这样,分割结果不仅依赖于像素的统计特性,还兼顾了它的空间位置信息。在混合模型中引入这种位置约束方法,在一定程度上减小了算法陷入局部极值的可能性。而且,滤波的平滑能力降低了分割区域的空间混杂现象,使图像过分割区域所对应的混合分量趋于重合,这为模型选择提供了一种新的实现途径。本文给出的算法从事先给定的混合分量个数开始迭代,通过合并具有相似参数的混合分量,算法可以自动地进行混合分量个数的选择。整个算法只需一个迭代过程,实现了参数估值和模型选择的无缝结合。 由于 EM算法是一类迭代算法,而且算法每次迭代需要访问所有的数据点,这无疑限制了图像的分割速度。以滤波方法在混合模型中增加对像素位置关系的约束,并没有在模型中引入与像素位置相关的参数,因此,可以采用图像减采样方法降低模型参数学习所需访问的数据量。本文把图像划分为由局部像素构成的若干子块,将每个子块视为低分辨率下的一个像素,其特征值为原始分辨率子块内所有像素特征值的一个统计量,缩小了每个图像区域内的视觉差异性,同时也凸显了不同图像区域间的差异性。为了提高小样本数据的统计可靠性,对参加模型求解的像素块采取加权处理方式,并利用滤波前后像素后验概率间的差异来调整像素权值,自适应地加强小样本数据的统计特性。 对于图像的自动语义标注,本文并没有考虑建立一个通用的统计模型,来模拟图像区域和标注字之间的复杂相关性,而是将视觉特征和标注字信息分别看作对图像进行描述的两种不同语言,并采用基于实例的机器翻译方法对图像进行标注。将基于实例的机器翻译思想应用于自动图像标注中,把带有标注的训练样本集当作一种标注经验,在给出了一幅图像的视觉描述后,从经验库中检索出与之视觉相似的图像,并且通过模仿这些例子图像的标注,对图像实施标注。对于图像的视觉特征,采取了基于区域的描述方式,并采用推土机距离作为图像间视觉相似性的判别依据。为了增加检索出的示例图像的可靠性,对推土机距离作了改进,增加了图像视觉间匹配的自适应性。与基准统计标注模型标注性能的比较,证实了算法的有效性。 图像的标注为语义分类提供了有效的判别依据,但由于每幅图像只能获得有限的标注字,以及标注字固有的语义不确定性,为标注信息的合理运用增添了难度。本文通过判别标注字与视觉特征之间的相关性,降低标注字的语义模糊性,因此可将每个标注字视为一个单纯的语义聚类,并通过单标注字类别的合并,获得最终的语义类别。由于语义一致的图像并不一定具有视觉相似性,而利用视觉与标注字之间的相关性,能将视觉连贯性较差的图像过滤出来,这样可以利用视觉连贯性较好的图像,进行语义类别提取和归类。而对视觉连贯性较差的图像,则利用已经生成的语义类别,采用标注字信息对其归类。这种做法能够较好地保证聚类结果的语义一致性,而聚类的数目可以由所提取出的语义类别数确定,解决了非监督学习中的聚类数目选择的问题。采用外部聚类有效性判别准则验证了对标注图像进行自动编目工作的可行性。 最后,总结了全文工作,并进一步对本课题今后的研究工作进行了展望与设想。