基于GPU的H.264/AVC编码器性能优化与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:qinyongj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现今流行的视频压缩标准中,H.264/AVC因其优秀的编码压缩比和高图像质量受到了各界的广泛关注。但是,H.264的高计算复杂度也使其在高清上的应用受阻,现有的基于纯CPU的串行编码器无法实时处理高清码流,而ASIC的编码器灵活性较差,因此H.264编码效率已经成为其广泛应用的主要瓶颈。针对在纯CPU平台上H.264编码过程极其耗时这一问题,本文从传统的H.264编码框架出发,逐一分析在编码过程中存在并行化可能性的模块,提出了基于GPU的并行编码器模型PEM-BCUDA。经前期分析,传统H.264编码过程中的运动估计与运动补偿、帧内预测、变换和量化、环路滤波等模块在串行编码框架中计算量占比较大且包含并行因子,因此本文对各个并行处理单元进行单独分析,提炼出模块中的并行模型并将其映射到CUDA平台,评测各单元在新平台上的加速效果。随后文章展开模块综合分析,判断出其间的数据相关性和控制相关性,找出系统中阻碍编码加速的瓶颈,修改模块内部结构,使得整个系统更加贴合CUDA平台,从而达到最大化加速编码过程的目的。本文最后对上述提出的并行编码器模块及系统进行了详细测试,选用Nvidia公司的GT240和GTX260+作为硬件支持,以不同分辨率的YUV图像序列作为视频输入时,单个模块的相对加速比都很明显,其中环路滤波的加速比更是达到了60倍以上。考虑到系统在CPU和GPU之间存在数据交互并且PCI-E总线的传输能力相对GPU内部处理能力较弱这些特点,在进行完模块测试之后又进行了系统集成测试。实验数据表明,当各模块被集成到并行编码器模型PEM-BCUDA中时,加速的效果明显降低,最后在同等环境下加速比只有2.5左右,并且当输入为CIF或QCIF等低分辨率图像时加速比甚至小于1,这说明GPU带来的加速效果被PCI-E上的数据往返完全抵消,PCI-E的数据传输能力成为整个系统的瓶颈,因此如何克服这个瓶颈所带来的限制是下一步的研究重点。
其他文献
近年来随着web数据爆炸式的增长,数亿TB的数据分布在世界上无数的服务器上。传统的数据库管理系统对个人数据管理中存在的异构数据显得无能为力,数据空间这种新的数据管理技
为了研究人类认知的发展过程,需一个与婴儿的生理能力和生态背景相类似的模拟系统,DIVA模型(Directions Into of Articulators)就是这样的系统。DIVA模型是一种关于语音生成
数据挖掘的发展使人们从海量数据中获取有用的知识成为可能。微数据指区别于统计数据的个体数据,它是数据采集与发布的基本单位。随着人们对微数据中个体隐私信息的日益关注,对
在网络结构和规模日益复杂庞大的今天,网络应用业务不断增加与网络负载日益繁重形成对比,如何对现有网络进行优化设计和规划,整合利用现有网络资源,合理升级网络硬件结构,以使充分
随着互联网技术的发展,社交网络为人们的沟通、娱乐以及获取信息方式等提供了新的途径。如今,社交网络的功能日趋强大,基于不同用户需求的社交网络层出不穷。因此,如何最大限度挖
糖尿病是一种危害人类健康的慢性疾病,随着人们生活水平的提高,发病率也在不断攀升。世界糖尿病联盟的数据显示,全球目前有近2.9亿糖尿病患者。其中,新增加的糖尿病病人主要集中
针对当下网络视频数量激增,在线访问量巨大,现有搜索引擎不便于用户浏览、搜索并快速掌握新闻事件演化发展的缺陷,本文以著名的在线视频分享与社交网站YouTube作为代表性数据
舌象诊断是中医历史中最为重要的诊断手法之一,在中医几千年的历史中占据着极其重要的位置。伴随着现代科学与技术的发展,特别是计算机的普及,使得舌象诊断逐渐远离主观性、
近年,随着移动互联技术和智能移动终端的快速发展,LBS中的隐私保护技术受到了广大研究者的广泛关注,学者们提出了很多匿名算法以用来保护移动用户的隐私和位置信息。但是对于
参数形式和隐式形式是曲线、曲面表示的两种主要方式。两种表示方式各有其优缺点,用隐式曲线、曲面易于判断给定点与曲线、曲面的位置关系,参数曲线曲面易于绘制,在造型上也便于