论文部分内容阅读
作为承载信息的重要媒介,图像在采集、传输、处理过程中会不可避免地受到污染,导致其质量下降。图像质量评价(Image Quality Assessment,IQA)旨在研究如何评价降质图像的质量变化。随着图像应用的发展,从图像中提取语义信息成为一个重要的任务,例如从图像中检测某类物体、识别人脸、判断行为等。在此类应用中,图像质量评价应该以是否提取出与人类感知相同的语义信息为标准,而非基于图像的像素信息或者美学感受进行判别。因此,如何定义及度量语义失真成为此类研究中的重要问题。图像质量评价方法通常包括两类:客观质量评价(Objective Quality Assess-ment,OQA)和主观质量评价(Subj ective Quality Assessment,SQA)。客观质量评价方面,传统质量评价指标如峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性指数(Structural Similarity,SSIM),仍然被广泛应用于各类任务的图像处理算法中作为衡量标准。但这些客观质量评价方法大多基于最底层的视觉信号层面,而非从高级别语义层的角度评估图像质量。此外,其他一些基于深度神经网络(Deep Neural Networks,DNN)的方法尽管性能有所提升,但对于语义信息的可解释性较差。我们提出一种新的表示图像语义信息的客观质量评价方法,通过将图像的语义信息转换为描述文字上的语义信息,使得整个评价过程的可解释性大大增加。主观质量评价方面,目前尚缺乏公认的语义质量评价数据集。与此同时,尽管现有人工智能(Artificial Intelligence,AI)算法可以自动分析大量图像或视频数据,显著提高多媒体数据的处理速度,但目前这些算法的识别结果和人类主观认知仍有一定差异,在许多应用场景下机器还不能完全代替人类进行更为复杂的分析。因此,我们提出一个用来衡量人类和机器对于语义失真判别差异的主观质量评价数据集,该数据集为后续的进一步研究奠定了基础,具有很强的指导和参考意义。具体地,本文研究工作主要包括以下两个方面:(1)基于简单场景(如监控或视频会议场景)中语义信息主要集中在前景目标及其关系的前提假设下,我们提出了一种基于语义场景描述的全参考图像质量评价方法,称之为“语义失真度量”(Semantic Distortion Measure,SDM)。我们针对前提假设进行了遮挡语义目标的性能评估实验。在所构建的语义显著性数据集上的实验结果表明,在语义信息失真度量方面,我们所提出的SDM方法优于目前普遍使用的十二种质量评价方法。之后,为验证SDM在实际系统中的可行性,我们选取视频语义加密应用场景并基于传统加密系统搭建了语义显著性区域加密系统(Region Of Semantic Saliency,ROSS)进行测试。进一步地,针对SDM算法语义评价粒度不足的问题,我们还提出了改进方案,并用实验证明了改进方案的有效性。最后,在验证了所提出方法的准确性之后,我们从语义评价的角度分析当前最常用的两个质量评价指标PSNR和SSIM,并用PSNR拟合语义失真变化曲线,以此实现像素级分数与语义级分数之间的直接映射,简化了整个语义质量评价过程。(2)同样基于前文所述假设,我们提出了基于简单场景下的主观“语义数据集”(Semantic Database,SID)。我们选取该场景下的三种语义目标(人脸、行人、车牌),旨在研究人类和机器在三种常见失真类型(JPEG压缩,BPG压缩,运动模糊)以及不同失真等级下对于语义目标的判别差异,详细分析了人类和机器如何不同地感知语义失真。实验结果表明,在特定任务下,机器在平均失真容忍度方面比人类强,而在泛化和稳定性方面较弱。进一步地,我们通过将建立的主观数据集与客观质量评价方法做相关性分析,再次证明了在度量语义失真方面我们所提出的方法要优于其他客观质量评价方法。