3D-HEVC帧内深度图编码快速算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:babyjl1219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字视频技术的快速发展以及消费水平的不断提高,三维(Three Dimensional,3D)视频在生活中的应用越来越多,如3D影视,3D投影机,虚拟现实等。3D视频的数据量通常十分庞大,这是由于3D视频需要更多2D视频作为信息载体,同时还需要大量的辅助信息和距离信息。这无疑给3D视频的存储和传输带来非常巨大的挑战。为了在保证3D视频质量的同时,提高传输和压缩效率,国际3D视频编码扩展开发联合协作团队(Joint Collaborative Team on 3D Video Coding Extension Development,JCT-3V),在二维高性能视频编码框架(High Efficiency Video Coding,HEVC)的基础上,开发了三维高性能视频编码框架(3D High Efficiency Video Coding,3D-HEVC)。3D-HEVC使用了许多新的技术,如时差补偿预测,视点合成,失真优化、深度图等,极大压缩了视频的体积。然而,3D-HEVC的编码复杂度高,编码时间长,阻碍了3D视频的广泛应用。因此,如何在保证3D视频编码质量的同时降低编码时间,成为炙手可热的研究课题。本文主要针对3D-HEVC中的深度图帧内四叉树编码结构进行优化。深度图的帧内编码采用了四叉树编码结构和帧内模式选择,是导致编码时间复杂度高的主要原因。同时由于深度图具有尖锐的边缘以及大面积平滑区域,相较于纹理图的四叉树编码,深度图四叉树编码会产生更多的冗余计算。为了提高深度图帧内编码的效率,本文提出如下方法:1、提出基于二维熵和方差的深度图快速划分算法。首先通过对大量帧内深度图的编码单元(Coding Unit,CU)进行二维熵和方差的数据统计,分别得到二维熵和方差的决策阈值。在进行编码时,如果当前编码单元二维熵的值小于二维熵阈值则不划分,若大于该阈值则通过方差继续判断。如果当前编码单元方差的值大于方差阈值则继续划分,否则不划分。由此提前终止计算并确定编码单元的大小。经对比实验验证,本文提出的算法,能降低计算复杂度,节省编码时间,且平均视频质量损失在可接受范围内。2、提出基于自适应卷积神经网络(Convolutional neural network,CNN)的深度图快速分割算法。针对传统深度图快速分割方法需要手动选取图像特征,难以提取多个特征间的相关性,且算法泛化能力不强等问题,本算法提出使用深度学习的方式来对深度图的编码单元进行划分决策。深度图内需要决策的编码单元尺寸大小有64×64、32×32和16×16三种,这使得网络模型难以统一。本文提出一种自适应编码单元尺寸输入的CNN网络,采用空间金字塔池化(Spatial pyramid pooling,SPP)来充分提取三种尺寸编码单元的特征,解决了多尺寸编码单元统一输入卷积神经网络问题。3、提出了基于非局部自注意力(Non-local Self-attention,NLSA)卷积神经网络的深度图快速分割算法。深度图中存在大范围平坦区域以及尖锐的边缘区域,与纹理图差距较大,本文采用NLSA改进自适应卷积神经网络模型,使得所提出卷积神经网络能够跳过深度图中大范围平坦区域的同时,更加关注于边缘锐利的区域,达到对深度图编码单元良好的预测效果。经对比实验验证,本文提出的算法,节省了大量编码时间,且编码质量良好。
其他文献
光电振荡器(Optoelectronic oscillator,OEO)是一种非线性的,耗散的,封闭性的微波光子系统,由长距离的光学支路和电学支路两部分组成一个封闭环路。光电振荡器的相位噪声极低,且其不随频率的上升而恶化,该特点使其有望替代微波振荡器。单频光电振荡器的研究已经在性能优化、系统集成、系统应用等方面取得了非常大的进展,但对于多频光电振荡器的研究还比较欠缺,无法直接振荡产生低相噪的多频率
模块化多电平矩阵变换器(Modular Multilevel Matrix Converter,M3C)作为模块化多电平系列拓扑的一员,具有模块化设计、输出谐波含量低、扩展性强等优势。在分频输电,电力牵引,风力发电等领域具有广阔的应用前景,并引起了工业界和学术界的广泛关注。在对多电平技术的发展和模块化多电平系列拓扑研究分析后,本文的工作以M3C作为研究对象展开,主要内容包含:首先,本文介绍了M3C
近年来,随着无线传感器网络技术的发展,基于位置的服务受到的关注与日俱增,相关的应用需求和定位技术层出不穷。而受限于室内墙体对卫星信号的遮蔽,全球卫星导航系统无法在室内实现精准定位,国内外学者针对室内定位进行了大量的研究,进而催生了许多室内定位技术。无线局域网(Wireless Local Area Network,WLAN)在室内广泛分布,智能移动终端也不断普及,为组合导航定位技术的发展、应用和推
第五代移动通信(5th Generation,5G)中的关键技术之一的非正交多址接入(Non-orthogonal Multiple Access,NOMA)是实现海量用户接入的方案之一,通过在功率域中区分不同的用户使得多个用户信号能够复用同一个时频资源块也即同一个子信道进行通信,能够极大地提升频谱利用率。与此同时也引入了一个新的问题,即如何在有限的时频域中进行资源分配。资源的分配主要包括两个方面
传感器网络因其造价低廉、易于维护、可靠性高的优点无论在民用还是军用领域都应用广泛。值得关注的是,传感器的测量信号在传输过程中极易受到不稳定信道的干扰导致测量衰减,影响系统的性能。另外,如果大量数据同时传输,不仅会占用公共网络资源,而且还容易影响传输效果和滤波性能。因此,研究测量衰减下基于通讯协议的非线性系统的分布式滤波问题,既具有重要的理论意义又具有实际应用价值。本文将针对测量衰减下基于通信协议的
图像语义理解是指对图像中包含的信息进行解析,研究图像属于哪一类场景、图像中有哪些目标、各目标间的语义交互关系等。人类生活在一个多种信息交融的环境中,每一种信息的来源或形式都称为一种模态,要想让计算机能够从人类的角度理解世界,多模态信息的利用是必不可少的。本文围绕图像语义理解问题,以深度学习作为研究工具,以多模态嵌入融合作为研究方法,针对图像语义理解中的场景识别、场景图生成、图像描述三个任务开展研究
雷电是一种频发的自然现象,其发生时常常伴随着强电流、高电压并向外辐射电磁脉冲。据统计,全球各个地区每秒会发生近两千个雷电。雷电会对人类生存生产造成严重干扰。因此对雷电探测开展研究,提供精准的雷电定位和预测,具有重要意义。本文对雷电测向正交磁环天线(Orthogonal Magnetic Loop Antenna,OMLA)的结构特性进行分析研究,提出一种新型结构的三磁环测向天线。通过MATLAB仿
由于信息技术的飞速发展,必然出现一些对时延和可靠性有更高要求的新兴业务。5G作为新一代移动通信技术,将广泛应用于增强移动带宽(enhanced Mobile Broadband,eMBB)、超高可靠低时延通信(Ultra Reliable Low Latency Communication,URLLC)和海量物联(massive Machine Type Communication,m MTC)等
电视节目策划是以提高节目质量为目标,凭借节目所拥有的特色,最大限度地扩大节目的核心观众群,以此来提高节目的收视率。而优质节目是观众保持忠诚和收视率稳定的重要前提,具有创新意识和创新精神的节目策划者能够以标新立异的思维方式和策划理念去审视新现象、表达新内容、带来新视点,收获观众对于节目的认可度以及忠诚度。在数字技术快速发展的今天,人工智能技术、虚拟现实技术为电视节目带来巨大的发展契机,层出不穷的新媒
期刊
随着高铁的发展,处于高速移动环境下的无线通信用户也日益增加,导致高速移动通信面临严峻考验。正交频分复用(OFDM)作为多载波调制技术,将频域内信道划分成若干正交子信道,把高速串行信号调制到子信道并行低速传输,具有抗多径效应能力强、频谱资源利用率高等优势。但高铁传输时收发端相对位移加快,使OFDM子载波间不再严格正交,进而引起了子载波间干扰(ICI)。故寻找较好抑制ICI的信道估计成为当前研究热点。