基于CUDA的H.264视频并行编解码器研究与实现

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:candyshelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比此前的任何视频编码标准,H.264标准都更为先进实用,但实际上其发布距今已有多年,仍然与真正大规模的应用实现之间存在较大距离,根本原因在于H.264的高性能以提高了编解码器的计算复杂度作为代价。如何利用现有的软硬件资源,在保证高性能的前提下提高H.264编解码器的效率,长期以来都是该领域研究的热点。本文首先分析了视频编码在应用领域所面临的挑战,再就国内外的研究现状进行了讨论;然后对CUDA的编程架构进行了阐述,并介绍了H.264编解码架构、主要特征,以及H.264的关键技术,分析了CUDA应用于H.264视频编解码的优势与挑战。在此基础上,对H.264编解码框架作了并行化设计,并就其中最为耗时且适合于并行执行的运动估计、环路滤波模块提出了GPU的实现,同时对熵解码查表解码算法也作了基于CPU的算法设计。在编码框架设计中,本文考虑到GPU和CPU间数据传送的时间应明显小于GPU所需要的计算时间,才适合于将该部分算法映射到GPU中去。为了减少从Device端向Host端的回传数据量,同时又避免数据漂移现象,本文采用运动信息来取代残差信号传回。通过对运动估计并行模型的分析,本文利用可变子块的树状结构来分三步完成对整像素点的预测,同时也对亚像素运动估计中的插值运算和SAD计算的并行实现算法作了描述。对环路滤波,分别对Bs值求取以及边界过滤均作了并行实现。此外,对并不适合并行设计的熵解码作了基于CPU的算法设计,根据H.264标准中的CAVLC解码算法过程中查表的特点,提出了针对所查找的二维表中存在的定长和变长两种码表,分别采用不同策略加以优化的设计。实验结果证明,本文提出的基于CUDA的运动估计并行算法实现,编码效果与全搜索算法相近,却大大加速了编码器的处理速度。同时,解码端对环路滤波和熵解码算法的优化,在不降低视频质量的前提下,也显著地加速了解码器处理速度。
其他文献
线特征检测在计算机视觉、模式识别和图像处理领域中发挥着极其重要的作用。传统的线特征检测方法都是以像素点为单位进行处理,这与人类视觉感知系统并不相同。为了有效地分析
视频运动目标检测与特征提取是计算机视觉技术研究中的基本内容,随着社会和科技的发展,在人工智能、人机交流应用领域中起着极其重要的作用,其涉及了视频图像处理和模式识别等技
目前,主流的计算机中的处理器主要是中央处理器(CPU)和图像处理器(GPU)。传统上GPU只负责图形渲染,大部分的处理都交给了CPU。但是随着科技的发展,很多科学研究及工程应用都需要
智能天线(SA)技术是TD-SCDMA(TD)标准的关键技术之一,TD系统采用SA可以有效的提高系统的抗干扰能力,增加系统容量,提高频谱利用率,减少电磁环境污染,因此TD系统中的SA应用具
无线射频识别(Radio Frequency Identification,简写为RFID)是物联网应用的核心技术,因其特有的低成本和高可靠等优点而被视为21世纪最重要、最有发展前途的信息技术之一,目前在
太赫兹波在化学、信息、物理和生物学等基础的研究领域及医学、国防、材料等科学技术领域拥有极大科学价值与广泛的未来前景。常规材料难于在太赫兹波段发生电磁响应。SRR结构的弥补了太赫兹波段电磁材料缺乏的缺憾。SRR结构吸收器以其近乎完美的吸收性能,作为太赫兹系统中重要的功能器件广泛应用于太赫兹系统。本文通过等效电路的角度对四种SRR结构吸收器吸收原理进行了分析并完成了仿真、加工和性能测试:1.对双开口谐
接入网络选择算法作为引导用户接入网络的策略依据,由于其对用户体验和网络资源调配方面的重要意义,受到学术界和产业界的青睐,是下一代通信网络的关键技术之一。本文首先介绍了
深空通信网络与地面网络在物理环境特性和信息传输业务需求上有着很大的不同,面临着链路可靠性传输以及端到端有效性传输等多方面的挑战。随着深空探测范围的增大、通信传输距
视频技术能够记录和传递视觉信息,在消费电子、视频监控、工农业生产等领域应用广泛。视频采集是进行视频信号分析、压缩和网络传输的前提,设计出高性能的视频采集前端意义重
数据采集存储器是获得数字信号的关键设备,尤其在雷达、图像处理、声纳、通信等领域,具有高速采样率、大存储深度、便携性以及高可靠性特点的采集存储器有着越来越重要的应用。