基于深度学习的高动态范围视频逆色调映射算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Lucy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频服务近些年来在互联网以及移动互联网的流量占比逐年增加,用户人数也呈现增长趋势。用户对视频服务需求的提升推动了新一代,高质量视频标准以及视频技术的产生与发展。超高清(Ultra High Definition,UHD)视频,特别是其中的高动态范围(High Dynamic Range,HDR)视频,是近些年来视频技术发展的重要方向之一。随着HDR视频显示技术,以及HDR视频传输技术的成熟,HDR视频资源数目较少,以及HDR视频制作难度较大的问题成为了限制了HDR视频进一步发展的瓶颈。本文基于当前最新的HDR视频的标准,技术参数,以及通用制作流程,重点研究了HDR制作技术中的逆色调映射技术。逆色调映射技术是将标准动态范围(Standard Dynamic Range,SDR)图像或视频转换为对应的HDR图像与视频的技术。由于逆色调映射技术以SDR图像与视频作为输入,因此可以充分利用现有的大量SDR图像与视频,以增加HDR资源的数量;逆色调映射技术也可以应用在现有的拍摄技术中,以利用常规的拍摄设备得到HDR图像与视频。逆色调映射技术提供了一种高效,便捷的HDR制作方法。随着深度学习算法的发展,基于深度学习的逆色调映射算法是近年来的研究热点。基于深度学习的逆色调映射算法,相较于非深度学习算法,在效果与泛用性上都有较大提升,但是现有的基于深度学习的算法仍然存在以下问题:算法通常针对图像进行设计,直接应用到视频上面时,通常会产生闪烁现象;算法通常针对正常曝光度下的图像与视频进行设计,无法应用到非正常曝光度的图像与视频;算法通常会产生色偏。为了解决基于深度学习的逆色调映射算法在视频上产生的闪烁现象,本文提出了一种基于三维卷积神经网络的视频逆色调映射算法,以及一种基于标准HDR10视频的数据集制作方法。模型训练过程中,使用了针对逆色调映射问题提出的数据预处理方法,并使用了包含了均方差损失,本征损失,以及感知损失的损失函数。在保证了生成的HDR视频视觉效果的基础上,也消除了闪烁现象。与其他典型的逆色调映射算法相比,本文提出的算法在视觉效果上有较大提升,并且在客观评价指标上也有更高的评分。通过必要性实验的验证,本文提出的损失函数与数据预处理方法也被证明有效。为了解决现有逆色调映射算法无法处理非正常曝光度输入的问题,以及解决色偏问题,我们综合考虑了视频文件的数据特点,亮度与颜色的理论基础,亮度均衡化方法,以及颜色校正方法,在前述视频逆色调映射算法的基础上,进一步提出了一种采用了亮度与颜色校正的视频逆色调映射方法,以及一种基于颜色校正的数据集制作方法。算法的特点主要体现在亮度与颜色信息的分离处理,我们在(4(1颜色空间下对视频的亮度信息与颜色信息分别进行预处理,并使用两个三维卷积神经网络分别处理视频的亮度信息以及颜色信息。与其他典型逆色调映射算法对比,本文提出的算法能够处理多种不同曝光度的输入,并且在客观评价指标,以及颜色准确度上均有提升。通过必要性实验,我们验证了数据预处理方法,以及亮度与颜色信息分别处理的有效性。
其他文献
近年来,纳米结构金属材料因其特殊的本征理化性质和新奇的纳米效应吸引诸多学者的关注,其中以钴为代表的过渡金属纳米材料具有永磁性、耐热性、催化性等特性,不仅在磁性材料、陶瓷领域、化工等方面已有一定的应用,而且在能源如电容器、电池以及生物医疗等领域具有巨大的发展前景。因此,积极研究和开发工艺简洁的钴基纳米薄膜材料的制备方法,探索相应的特殊性能和应用具有重要意义。在各种纳米技术中,电沉积方法制备金属纳米薄
在经济全球化的大背景下,催生了物流业,并不断向规模化、专业化及智慧化发展。高精度定位技术便是智慧物流所依赖的核心技术之一。基于物联需求的高精度定位技术,即物联网覆盖范围内的物体所需要的高精度定位技术,不仅可以应用于智能物流环节中的仓储管理、货物堆积管理、集装箱管理、货物配送和实时追踪等,还可以应用于灾难救援、社会公共环境和财务的监管、智能交通及大型船舶里面的人员管理等,随着物联网的发展,产生了用于
用催化燃烧技术回收大量低浓度(<1vol.%)甲烷中的能源,既消除了甲烷直排带来的强温室效应,也避免了火焰燃烧所需的1300℃以上高温起燃和因此产生的NOx污染。La Fe O3钙钛矿用于低浓度甲烷催化燃烧,活性中等稳定,价格低廉,原料易得,但需要进一步提高其活性和热稳定性才能满足商业应用的要求。本文改进了共沉淀法,制备的La0.8Ca0.2Fe O3(LCF)粉末活性高,更抗烧结。采用分层涂覆法
近年来,由于缺乏有效的中小企业信息化公共服务系统,公共服务资源难以有效整合,服务协同机制难以建立,服务信息渠道不畅。由于服务机构的相关信息数据数量大、范围广、种类多、变化快和分散化的特点,造成服务缺乏针对性。基于以上情况,本项目统筹各类服务资源和信息资源,建设统一的中小企业公共服务系统。目的是为中小企业提供各类服务,加强国家政策宣传和落实,优化配置中小企业公共服务资源,促进分工合作,加快工业化和信
手性γ-仲胺醇作为具有生物活性的天然产物和药物的重要结构单元,常出现在鞘脂类、抗生素类、抗病毒糖苷酶抑制剂类、环磷酰胺类抗癌药物、肾上腺素受体激动剂类和5-羟色胺重摄取抑制剂类等重要化合物的分子中。另外,手性γ-仲胺醇也可作为重要的构筑模块用于有机合成之中,比如用于合成手性配体或者双环异硫脲类小分子催化剂。合成手性γ-仲胺醇类化合物的方法众多,不对称催化氢化β-仲氨酮类化合物是合成该类化合物最重要
随着国家海洋战略重要性的不断加强,水下机器人技术的发展成为推进海洋战略的关键因素。仿生机器鱼作为水下机器人的一种,摆脱了传统水下机器人效率低、能耗高、噪声大等缺点,是一种游速快、噪声低、推进效率高、灵活性高、工作时间长、工作范围广且能适应多种工况的新型水下机器人。目前仿生机器鱼的主体大多是刚性的,其机械传动的复杂性随着所需的自由度而增加,机器鱼的鲁棒性也随之降低。本文提出了一种新型的线驱动仿生软体
随着传统产业的智能化升级,越来越多的智能化设备应用到工业领域中,如智能仓储物流系统使用移动机器人配合机械臂实现物料的分拣与配送。在此类非结构化环境下,需要为整个系统增加视觉感知能力来保证工作的安全开展。本文针对存在移动机械臂的双机械臂协作场景,提出了一种基于RGB相机对移动机械臂进行空间位姿估计与短期运动预测的深度学习方法,并结合相应的从机械臂避碰策略,实现了双机械臂安全协作任务。本文方法的具体内
对同一场景内物体间的交互关系建模对于视觉理解和运动行为建模有重要意义。在静态场景内,物体间具体明确的交互关系共同组建场景内抽象复杂的事件;在动态场景内,物体们交互协作,以此来避免碰撞或进行群体活动。本文基于图神经网络的信息传递算法框架建模同一场景内物体间的交互关系,针对静态场景下的视觉关系检测任务和动态场景下的运动轨迹预测任务设计算法,并进一步实验给出了交互关系建模的可视化和有效性分析。针对检测图
合成孔径雷达(Synthetic Aperture Radar,SAR)能够全天时全天候地稳定成像,因此在军事和民用领域起着不可替代的作用。然而,受SAR场景复杂性、目标多样性、SAR图像相干斑噪声以及SAR系统和观测平台等限制,SAR图像目标自动识别仍然是一项世界性难题。近些年来深度学习在光学图像识别领域取得了非凡的成就,相关技术被引入到SAR图像识别,并已经取得显著的成果,但现有的研究大多仅利
近年来随着深度卷积神经网络的不断发展,图像分类、目标检测、语义分割等领域都取得了突破性的进展。而与此同时,卷积神经网络所需的参数量与计算量也日益增大,使网络模型在智能手机或嵌入式平台等资源受限硬件上的部署成为了一项相当有挑战性的工作。因此,需要研究对现有卷积神经网络模型进行压缩的算法,减少模型的内存占用和计算量,从而使网络模型在实际部署硬件上能有更好的性能表现。本文对卷积神经网络的压缩和加速算法展