基于深度学习的视频编码环路滤波方法

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lyh993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,视频是重要的信息媒介。视频数据的传输量呈指数级增长。人们对视频质量,视频分辨率的要求也在不断提高。这对视频编码技术带来了新的机遇与挑战。相比于上一代视频编码标准H.264/AVC(Advanced Video Coding),当前常用的视频编码标准HEVC(High Efficiency Video Coding)提高了大约50%的编码效率,但是依然不能满足视频应用对于视频编码技术的高要求。在基于块的视频编码中,每个编码单元之间相互独立,具有不同的编码参数,使得编码后的视频具有块效应。另外,编码过程中高频分量的损失造成了振铃效应。块效应、振铃效应以及编码带来的模糊统称为压缩伪影。由于重建帧会作为参考帧,所以这些压缩伪影对视频的主观质量,以及后续帧的编码都造成不良影响。HEVC,H.264/AVC视频编码标准中采用去块滤波器、样点自适应补偿等方法,用于改善压缩伪影问题。但是这些方法是人工设计的,难以适应复杂的视频内容。随着深度学习的发展,基于卷积神经网络的滤波器可以带来比传统滤波器更好的效果。但是现有的这些基于深度学习的滤波方法具有不足,没有结合视频编码的噪声具有的局部失真和全局结构失真的特点去分析滤波的过程。本文针对视频编码压缩伪影的特点,利用卷积神经网络的优势,分别提出了两种算法,用于减少压缩伪影,提高视频编码效率。具体工作如下:1.基于特征混合的帧内增强方法:该方法通过语义提取网络,捕获视频重建帧的高级语义信息。通过类似U-Net的,具有池化操作的结构语义特征提取模块来获得视频结构信息。另外,通过由多层堆叠卷积层实现的纹理特征提取模块来学习视频编码中的低级纹理失真。实验表明,与HEVC编码标准相比,该方法在全帧内模式下带来了11.3%的BD-rate节省。2.基于全局表征与局部编码失真融合的视频滤波方法:该方法从图像去噪过程和编码失真恢复过程来改善压缩伪影,并设计了三个支路的融合网络。一个支路专注于全局上下文特征提取,用于去噪过程。一个支路专注于高级局部特征提取,用于编码失真恢复过程。另外一个支路专注于基本语义特征的提取,并支持空间上准确的映射。三个支路通过基于注意力机制的融合方法合并在一起,恢复原始视频。实验表明,该方法与HEVC相比,在全帧内,低延迟,随机访问编码模式下分别实现了13.5%,11.3%,11.7%的BD-rate节省。
其他文献
图像超分辨重建旨在从低分辨率图像中重建高频细节,广泛应用于视频监控、医疗影像、卫星监控等领域,同时也是分割、分类、检测等任务的研究基础。由于低分辨率图像和高分辨率图像之间存在一对多的映射关系,图像超分辨是一个极具挑战性的任务。为此,研究者聚焦于特征提取、细节重构和先验引入三个方面设计多种超分辨方法,并将超分辨方法建模为低分辨率图像与高分辨率图像之间的高频残差预测问题。然而,其仍然存在以下三个难点:
学位
在行政公益诉讼中,诉前程序有其特殊的法律价值,其主要内容是检察机关监督行政机关依法履行职责,以保障生态环境和自然资源领域受到侵害时能及时得到恢复。如果诉前程序中的检察建议没有对行政机关依法履行职责起到监督、督促的作用,那就要启动诉讼程序。检察机关提起公益诉讼制度从试点工作到正式建立实施的时间并不长,相应的配套制度还不够完善以及相关概念的不明确和相应规定的缺失,导致该项制度在司法机关、行政机关和法学
学位
“实际控制人”自被引入公司法以来,关于其概念的争议就未曾停止,究其原因,乃是这一出自上市公司领域的概念有其时代的局限性,随着公司治理形态的不断发展,应重新界定实际控制人的概念。作为公司的“国王”,从财务经营、人事任免,到公司的重大决策,都要受实际控制人支配。与《证券法》关于实际控制人的规定相比,《公司法》对实际控制人的规制可谓匮乏;而与公司股东等积极参与者不同,债权人往往处于更加消极的地位,合法利
学位
当前,我国对于非物质文化遗产代表性传承人的管理已经从广泛申报认定到科学动态管理,国内逐渐出现取消代表性传承人资格的退出案例,然而这些退出实践相比于庞大的四级代表性传承人系统而言,毕竟是很小的一部分,对于代表性传承人退出机制的法律研究还很缺乏。鉴于此,本文通过梳理国家层面和地方层面关于代表性传承人退出机制的立法规定和执法实践,总结退出机制的法律现状,发现目前主要存在退出机制适用不规范、相关程序不明确
学位
图像语义理解算法主要通过给图片生成一句文字描述来深入挖掘图片中的语义信息,该任务是一个融合计算机视觉和自然语言处理技术的研究课题,在图像检索、儿童教育、医学影像分析、人机交互等领域都有着广泛的应用。受机器翻译领域编解码框架技术的影响,当前的图像语义理解算法主要使用编解码框架进行研究,使用编码器提取图像特征,使用解码器将提取的图像特征转换成文字描述。本文将基于编解码框架对图像语义理解算法展开研究,针
学位
暗图像增强也被称为低光照图像增强,其致力于解决由不利光照条件或不专业的拍摄设备和人员拍摄导致的光照不均匀、极端低光照、背光、噪声、色偏以及压缩块效应等问题。低光照图像增强近年来得到了快速发展,然而在极端低光照和压缩低光照图像的增强方面仍充满挑战。典型地,夜晚拍摄的真实极端低光照图像往往光照非常不足且含有大量噪声。除了成像过程的光电转换噪声、暗电流噪声、模数转换噪声等,图像在格式转换和储存环节噪声程
学位
医学图像分割在临床诊断和治疗中发挥了重要的作用,为医生监测病人病情、制定手术计划和进行术后研究提供了重要参考。本文基于心脏解剖学的先验知识,联合随机游走方法和水平集方法,实现对右心室的准确分割。主要的研究内容如下。对医学图像进行预处理。通过对比实验,分别选取分段线性变换和中值滤波来对输入的医学图像进行增强和去噪,从而提高图像的对比度,滤除图像噪声,为后续的分割提供有效的图像信息。基于K-means
学位
劳动监察与劳动仲裁制度是劳动法体系中维护劳动者合法权益的重要途径,对于构建和谐的劳动关系发挥着重要作用。但这两种制度有着本质的不同,劳动监察采用公权干预的方式,通过行政机关对劳动违法行为的监督检查和处罚,督促用人单位纠正违法行为,从而为劳动者提供有效的行政救济。劳动仲裁则是由劳动关系当事人向劳动仲裁部门申请仲裁,通过劳动仲裁机构的裁决,对当事人之间的私权纠纷做出处理,属于民事救济。劳动者在其合法权
学位
近年来飞速发展的移动通信和流媒体技术,促进了各种视频业务的爆发式增长,使其在人们生活和工作中占据着越来越重要的地位。用户体验质量(Quality of Experience,QoE)是反映用户对服务满意程度的重要指标,是判断流媒体信息传播服务优劣的重要依据。尽管最近广泛应用的深度学习技术推动了该领域的前进,现有研究工作在应用到实际场景中时,仍然面临许多问题。首先,现有视频QoE数据集均面向点播视频
学位
随着显示驱动、电源管理以及汽车电子等中低压消费电子应用的发展,集成了低压CMOS以及中低压LDMOS器件的0.18μm BCD工艺技术逐渐成为主流的平台技术,并且在实际应用中也越来越多地受到客户的青睐。在BCD工艺中,功率LDMOS成为BCD工艺中器件设计的重点和难点,其主要体现在满足击穿电压的基础上为用户提供更低的比导通电阻和更高的可靠性。本论文工作主要基于华润微电子0.18μm G3 BCD工
学位