基于CUDA平台的H.264视频编码器研究设计

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:wangxiangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
H.264/AVC是当前国际上最先进的视频编码标准,通过采用新的编码技术获得了更高的编码效率与更好的图像质量。但是这些新技术在提高编码效率的同时也带来了更高的计算消耗以及对系统内存带宽的需求。由于运算复杂度的增加,使用目前的硬件平台已经很难实现高清视频的实时编码。另一方面,近年来图形处理器(GPU)的处理速度正在以超过摩尔定律的速度发展,而且能够加速处理一些非图形领域的应用问题。CUDA、OpenCL等编程模型的出现使得基于GPU的通用应用开发变得更加简单灵活。目前GPU已经在天文学、流体力学、电磁仿真、信号处理、视频压缩等领域获得广泛的应用,并取得了丰硕的成果。本文通过对CUDA编程模型以及H.264视频编码框架的研究,提出了一种基于CUDA的H.264并行编码器实现方案。该方案中CPU负责编码参数的初始化、视频文件的读写、CPU与GPU之间的数据交互以及对GPU的调度和控制。GPU负责编码过程中帧间预测、帧内预测、变换与量化、熵编码与去块滤波等具体计算任务的执行。通过合理的任务分配,充分发挥了CPU和GPU两种处理器各自的优势。然后对编码器的各个模块重新作了并行设计。针对帧间预测分别设计了整像素运动估计与分像素运动估计的并行执行过程,提出了一种并行的参考帧插值计算方法;针对帧内预测设计了宏块之间与宏块内部两级并行的执行过程;针对变换与量化设计了快速DCT变换与Hadamard变换的并行执行过程;针对熵编码设计了每个子块码流生成与各宏块码流合并的并行执行过程;针对去块滤波设计了边界强度计算与滤波计算的并行执行过程,提出了一种新的去块滤波的宏块执行顺序,增大了并行粒度。最后本文选择了多种格式的视频序列对设计的编码器进行了详细的性能测试。相比传统的串行编码器,本文设计的基于CUDA的并行编码器在处理1080P全高清视频时获得了平均16倍左右的加速比,并且图像质量只有微小的损失。本文基于CUDA平台开发的H.264视频编码器性能有了明显的提升,可应用于很多现实场景中,同时在推广GPU用于通用计算任务方面也有着很强的借鉴作用。
其他文献
音频数字水印技术是以音频为载体的水印技术,传统的嵌入音频的数字水印以二值图像为主,容量低,信息量少。本文以图像数字半调技术和逆半调技术为基础,提出了基于半调技术的灰
科学研究发现,人类的视觉系统存在一种选择性视觉注意机制,能够帮助人们在面对纷繁复杂的场景时快速提取有效的信息。很多研究人员将视觉注意机制引入到图像领域,对图像理解和分
涡旋光束是一种在传输过程中呈现螺旋前进的特殊光束,它具有螺旋型的相位因子eil?( l为拓扑荷数,也称为轨道角动量的量子个数,?为方位角),由于相位奇点的原因使得光强呈现暗中空
地质灾害引发的地表形变对人类生命财产和生存环境造成了严重危害,因此,准确定量测量地表形变对人类有效监测和防治地质灾害具有实用价值。合成孔径雷达差分干涉测量技术(Diffe
作为最受观众喜爱的体育视频之一,足球视频的分析和研究受到越来越多研究人员的关注。在足球视频中,有效的目标检测与跟踪,对足球视频的上层分析有着重要意义,如何实现鲁棒的足球
电磁问题中的快速精确电磁场数值仿真研究长期以来广受关注,积分类方法由于数值结果精度较高,在电磁计算领域得到了广泛的研究与应用。   本论文主要围绕着国防预研及国家
现实世界许多领域存在的问题都具有高度复杂性、多目标、多约束的要求,采用传统的搜索方法处理十分困难,求解效果不够理想,如何找到对问题本身具有更强求解能力的算法就成为一个
无论是传统雷达还是认知雷达,波形设计都是雷达信号理论的一个重要研究方向。传统雷达和认知雷达对于波形设计的方法有本质的区别,传统雷达信号处理一般都集中在接收机端,并没有
H.264采用基于块的DCT整数变换、量化和运动补偿等技术来实现视频数据的压缩,而基于块的视频编码技术将不可避免的引入块效应,造成图像质量的损伤,特别是在低码率条件下图像质量
指纹识别技术作为一种身份识别技术,广泛应用于信息安全领域。然而低质量的指纹图像不利于指纹识别,因此需对低质量指纹图像进行预处理。指纹方向场的计算是预处理的一个环节