论文部分内容阅读
计算机视觉在人工智能的发展中有着举足轻重的作用。在计算机视觉中,基于视觉的显著性预测问题,因为其广泛的应用情景,一直备受研究者关注。一方面,基于显著性区域的预测可以帮助机器快速对显著性区域或者物体进行识别,分割,跟踪等操作。另一方面,显著性区域的预测可以在图像和视频等领域帮助压缩,具有优化资源分配等更有实际意义的贡献。目前,计算机视觉领域另一个备受研究者和业界关注的问题是虚拟现实技术及三维显示技术。大多数虚拟现实设备和三维显著的数据来源是光场图像。光场相机因为其在一次拍摄中可以采集场景的多维信息而备受欢迎。光场图像做为一种新的数据格式,在日后计算机视觉的发展中将十分重要。一方面,光场图像的三维信息可以用于三维重建,3D显示等立体视觉显示,颠覆传统的2D成像习惯。另一方面,光场图像所包含的三维信息可以促进物体检测,物体识别等传统问题的发展。本文主要探究了光场图像对于视觉显著性预测这一关键问题的作用。本次论文有如下贡献: 1.本文创建了一个基于光场图像的视觉显著性数据库(Light Field Visual Saliency,LFVS)并基于该数据库进行视觉显著性分析。该数据库包含动物、植物、人像、风景、玩偶、交通工具等丰富情景的光场图像,总计1187张。这为日后光场图像的研究提供了一个大规模的基准;同时,本论文为该光场数据库设计了眼动实验并记录了在2D情景和3D情景中人眼的视觉凝视图,这为日后的视觉显著性预测的研究提供了丰富的情景。除此之外,本文探究了人眼在2D情景和3D情景中所关注区域的异同,为日后的基于3D情景的视觉显著性预测提供了更多的数据支持以及现象总结。最后,本文对人眼的视觉凝视图的特征进行分析总结,对进一步的视觉显著性预测提供了指引。 2.本文提出了一种基于光场图像的结合自底向上与自项向下特征的视觉显著性预测方法。该方法充分利用光场图像的深度信息,以人眼的观测机制为依据,主要从低层视觉显著性预测,中层视觉显著性预测和高层视觉显著性预测三个角度对人眼所关注区域进行预测。与传统方法相比,该方法在处理复杂背景,前景背景颜色相似的情景中效果尤为显著。本文在2014年发布的Light Field SaliencyDataset(LFSD)数据库以及本文创建的LFVS数据库上验证了该方法的有效性和可行性。本文提出的模型在多种评估方法上如Auc,similarity,CC,EMD都取得了良好的效果。 3.本文在光场图像的压缩过程中应用了图像的视觉显著性这一特性,提出一种基于视差补偿的结合HEVC编码的光场图像压缩方法。这种方法首先将光场图像按照一定规则生成YUV色域空间视频序列,再对该视频序列进行HEVC压缩。压缩中对视觉显著性区域进行视差补偿以保留更多资源。该方法在压缩比率较大的情况下仍能较为清晰的保留显著性区域的资源,不影响后期的重聚焦效果。本问使用PSNR以及BD-PSNR来评估该实验效果,基于HEVC的光场图像压缩方法比JPEG2000的压缩方法在相同码率下大约可以提高PSNR约为3dB。基于视觉显著性压缩后的图像的视觉效果和重聚焦效果明显好于普通的压缩方法。