基于眼动数据的立体图像质量评价

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:csmale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像主观质量评价是人对其通过视觉感知的图像质量在生理和心理上所给出的偏好性的反应。作为一种新兴的媒体,立体图像(Stereoscopic 3D(S3D))凭借感知重建场景深度这一优势,迅速地在家庭、电影院以及其他娱乐产业等领域得到普及。由于平面格式的立体图像/视频在观看过程中因汇聚-调节矛盾容易导致不舒适、视觉疲劳等问题,立体图像的质量评价就显得尤为重要。近年来,随着生理学的发展,人们对人类视觉系统的理解逐步加深,越来越多的研究开始关注人眼视觉特征在图像质量评价方面的作用,一系列很有创造性的基于人类视觉特征的模型被应用到了立体图像质量评价中。眼动数据作为人眼观看图像/视频的直接记录,开始广泛地应用于基于人类视觉特征的模型研究,很好地改善了已有的基于整体图像特征的评价模型效果。但是,这些方法只利用了眼动数据注视区域这一单一特征,而忽略了眼动数据所携带的其他有价值的特征,如注视点的跳变,辐辏调节等。因此,本文的主要目的是对眼动数据做特征性分析,找出与图像质量相关的眼动数据特征,并将其应用在立体图像质量评价当中。针对这一问题,首先创建了立体图像-眼动数据库(Stereoscopic Image-Eyetracking Data(SIED))。SIED的创建包括了三部分:图像库的建立,眼动数据采集系统开发,眼动实验的设计与实施。SIED的图像是由包括不同场景、不同深度的11幅图像进行了7种出入屏的调整得到的7*11幅图像构成。眼动数据的采集是基于Tobii眼动仪SDK开发的在线眼动数据采集系统来完成。在线眼动数据采集系统与在线的网络质量评价平台1通信,获取在线发布的测试任务,采集单刺激模式下被试者测试过程的眼动数据,上传主观评价结果及眼动数据。在眼动数据采集过程中,共设计了三个实验,立体视敏度检验实验测试了被试者立体感是否正常;3D校正实验用来获取被试者立体感的系统性偏差,并据此进行眼动数据校正;立体图像的眼动实验采集被试者观看图像时的眼动数据,据此来建立基于眼动数据的立体图像质量评价模型。为了更好地利用眼动数据,本文对眼动数据的处理方法进行了研究,在眼动数据的滤波方面,改进了现有的基于双目视点平均位置滤波的2D场景的算法,提出了基于辅眼视点的3D滤波算法。对于眼动数据的3D校正,针对眼动数据采集配置方式的不同,改进了现有的基于视差偏差的校正算法,提出了基于视差角偏差的3D校正算法。同时本文提出了一种立体图像眼动数据可视化的方法——立体图像分层注视密度图法,该方法建立在基于视差图分割的3D图像的分层立体表示方法之上,并在此基础上根据眼动数据的视差角确定注视区域的深度层次,分层创建注视密度图,形成眼动数据的立体可视化表示。其结果可以很好地表示出立体场景下人眼注视的热点区域及其深度。其分层的思想也在后续的特征提取中发挥了重要的作用。目前还没有基于眼动数据特征的立体图像质量评价模型。针对这一研究现状,本文在对眼动数据处理的基础上,分析研究了眼动数据中所包含的各类特征,主要包括:静态特征、动态特征以及视差角特征。静态特征反映了眼睛的注视结果,用来描述眼睛注视区域的大小,不同区域注视的时长等信息。在此提取的特征包括注视点得个数、注视平均时长等;动态特征主要反映了眼睛的运动过程,涉及多个显著性区域间的跳变,眼睛的来回扫视等视觉过程。其特征可以用扫视幅度,扫视次数等来描述;视差角反映了眼睛注视的深度信息以及深度变化信息,与人眼在不同景深区域的调节相关,其特征主要包括了视差角的均值、方差、深度调节幅度等。然后利用SVR回归模型建立了基于眼动数据的立体图像质量模型。模型结果表明,MOS值与眼动数据的特征有很大的关联性,特别与眼动数据的视差角特征的关联更加明显,其与视差角均值的相关度达到0.72(线性相关系数)以上,与深度调节的幅度的关联也达到了0.4以上。因此,利用眼动数据来做立体图像质量评价是可行的。
其他文献
植入式神经电极在临床应用过程中面临着失效的问题,为对其失效因素和失效机理做全面准确的研究,本文区分电极的主动失效与被动失效,建立电极失效与故障传递模型,提出以降低植入损伤和微动损伤为目标的减少电极被动失效的优化设计原则,以及优化电极设计和材料选择减少主动失效发生的优化设计原则,包括具体的优化措施。考虑到神经电极表面导电聚合物涂层在改善电极性能中的重要作用,对两类常用的涂层—聚苯胺和PEDOT做进一
Martinec&Salway的多模态图文交际理论以Halliday(1994)的系统功能语言论为基础,又结合Barthes对社会符号学的补充,明确提出把语言结构以及其他文化符号结构统一在同一理论框架之内,以及吸收Kress&Vanleeuwen的视觉语法理论的精华,对图文关系的地位和语义有了更细致系统的描述。《画如人生、生活如画:卡罗?弗里达的画语人生》一书内含数百张图片与画作,以及丰富的文字解
本文考察现有企业行政信息管理平台在面向客户的服务支持中出现的故障,体现在客户个性化配置中与系统内部应有的功能出现差异,即没有体现系统提供的功能,源于不正确的客户配置。而故障排查工作一直是基于大量的手工操作,依赖经验,比较盲目。本文试图设计一个故障分析的自动化方案。根据以往各个故障描述信息和以及与此故障有关的配置文件记录,尝试多种深度学习的算法为此自然语言分类问题进行建模,帮助产品支持人员为新的故障
如今日益增长的网络请求给企业级Web网站的请求处理带来了巨大的压力。很多企业级Web网站使用NGINX来处理网络请求。NGINX可以将网络请求进行处理或者转发至上游服务器进行分流,然后将回复发送回客户端程序。基于原生操作系统的原生NGINX依赖于操作系统内核的网络协议栈。然而,内核态网络协议栈中的上下文切换、共享资源竞争等开销限制了网络包处理的性能。于是很多研究都使用用户态网络协议栈来替换内核态网
自闭症谱系障碍(Autism Spectrum Disorder,ASD)是一种神经发育性疾病,其发病机制复杂多变,基因和环境因素都有参与疾病的发生,其中基因遗传因素有60%的致病贡献比例。自闭症典型临床表现是不同程度的人际交往障碍、兴趣狭窄和行为方式刻板,在外观表现上,有些自闭症患者会出现,特殊面容、大头小头、肌肉萎缩,运动不协调,呼吸和睡眠障碍以及癫痫等严重症状。目前已有超过上百种的风险基因被
在以往的地震灾害中,RC基础隔震框架结构展现出良好的抗震性能,现今隔震技术也广泛应用于抗震性能要求较高的建筑中。尽管如此,我国隔震结构的设计方法研究与隔震技术应用起步较晚,分部设计法作为现阶段主要的隔震设计方法存在一定局限性。在RC隔震框架结构性能设计中,如何高效预估隔震结构在罕遇地震作用下的响应是关键内容之一。为了综合评价隔震结构的抗震性能,除了确定主体框架结构的性能目标与量化指标之外,对隔震支
国VI排放法规要求对以柴油机为原动机的移动机械的颗粒物排放实行严格的控制。在柴油机上安装颗粒捕集器(DPF),捕集颗粒并在适当时机(碳载量到达一定阈值)燃烧颗粒实现再生,是目前降低柴油机颗粒排放的重要技术途径。然而,实际车用柴油机的运行工况十分复杂,传统基于试验标定和构建压差模型的方法获得的DPF碳载量与实际值差距较大,导致DPF再生时机容易判定失准。本文采用基于数据驱动的机器学习算法来预测车用柴
磁共振(Magnetic Resonance,简称MR)引导的相控型高强度聚焦超声(Phased High Intensity Focused Ultrasound,简称pHIFU)系统,结合了pHIFU与MR技术两方面的优势,是一种新兴的微创或无创的肿瘤治疗技术,并可借助MR实现对靶区组织精确的定位引导和实时的温度反馈控制。本文研究的主要内容是pHIFU系统基于磁共振图像的定位方法综述及其改进优
随着科学技术的日益发展,人工智能技术逐渐地渗透到人们的日常生活应用中,而人脸识别技术以其广泛的应用前景作为其中的突出代表更是成为人工智能领域的热点话题。迄今为止,人脸识别技术在金融、安防和军事等领域均显示出巨大的应用优势,但对于教育研究方面的应用则少之又少。随着信息化教学的兴起,教学视频流作为信息化课堂的宝贵资源,是分析学生课堂活跃度、专注度的重要依据,也是评价教师课堂教学水平以及有的放矢地提高学
传统的全范围模拟机(FSS)主要模拟反应堆正常工况以及设计基准事故工况。严重事故一体化分析程序主要针对严重事故(SA)工况进行模拟,但是由于采用了独立准则,牺牲了一定的精度。在模拟反应堆早期热工水力响应时,传统的设计基准事故分析软件在准确度方面更有优势。利用传统的设计基准事故分析软件模拟严重事故早期响应,严重事故一体化分析程序模拟严重事故中晚期响应思路开发的严重事故模拟机能够较准确地模拟严重事故全