基于GPU平台的图像后处理算法实现研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:NoskyFox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频帧率上变换算法(Frame Rate Up-conversion Algotirhm)作为一种常见的图像后处理算法,旨在通过技术手段将低帧率的视频转换为高帧率的视频,有着广阔的应用的场景。3DRS算法是一种基于块的帧率上变换算法,利用了相邻块之间的时间和空间相关性,在降低运算量的同时提升了效果。但是,基于块的算法在运动物体的边界会出现模糊,并且内插时存在块效应。为此,不少研究者提出了基于光流法的帧率上变换算法。但是光流法在改善效果的同时,也带来了计算复杂度的提升。目前,GPU通用并行计算平台的兴起,为加速图像处理算法提供了一种全新的并行化思路。本文基于CUDA并行计算架构,提出了一种高度并行化的帧率上变换算法,并且研究了该算法在CUDA上的并行实现和优化技术。首先,本文提出了适合在GPU平台实现的帧率上变换算法,该算法主要可以分为运动估计、运动矢量后处理和运动补偿插帧三个部分。运动估计部分借鉴了Patch Match的并行传播模式,并针对帧率上变换算法做出了相应的改进,同时提出了自相似块的概念来提高运动估计算法的效果。运动矢量后处理部分提出了基于前后运动矢量场的一致性和自相似块的信息来克服遮蔽问题的方法。运动补偿内插部分将前后向运动矢量场转换为双向运动矢量场进行内插。此外,针对高分辨率视频的特点提出了分层运动估计的方案,大大降低了算法在高分辨率视频上的运算量。其次,本文研究了上述算法在GPU平台上的实现和优化策略。在GPU平台上,选择了在CUDA计算架构下进行实现和优化。针对算法的各个部分,详尽阐述了线程的合理配置方式,内存的高效利用方法,以充分利用GPU提供的硬件资源。对于算法中的一些细节问题,利用了在GPU上可以高效运行的算法来实现,比如归约和奇偶排序等。在实验部分对比了本算法CUDA实现版本与CPU实现版本的运行速度,实现了接近46倍的加速比,证明了优化策略的有效性。在实验部分,将本文算法和基于块以及基于光流的算法在低分辨率视频下的内插效果进行了对比,本文算法在优于传统的基于块的算法的同时,接近基于光流法算法的内插效果。除了比较算法的内插效果,本文还比较了各个算法在高分辨率视频下的运行速度,本文算法相比光流算法速度优势明显。而本文算法的分层估计版本,相比于原算法,在处理高分辨率视频时仅损失部分效果的情况下,明显降低了运算复杂度,实现了速度和性能的最佳平衡。
其他文献
本文主要研究了预李2-代数A在向量空间复形V上的表示的概念,半直积预李2-代数A×(ρ,μ)V,以及预李2-代数的表示与对应邻接李2-代数的表示之间的关系.首先,经过计算,我们推导
在数学领域中,非牛顿流的研究已经是非常重要.在化学、生物力学、地质学和血液流变学等领域上,也已经提出了和非牛顿流有关的问题,比如化学上各种油漆和涂料等具有非牛顿流的
设k是域,A是环,A[n]是A上的n元多项式,Zariski消去问题如下:设B是k-代数,如果B[1]≌k[n+1],那么是否有B≌k k[n]成立?当n = 1时,S.Asanuma,P.Eakin和W.J.Heinzer已经给出了肯
词汇识别是指人们通过不同的通道,比如视觉通道或听觉通道,接收词形或词音信息,获得词汇的拼写、读音、句法及语义等信息的过程(陈宝国,彭聃龄,2000)。在词汇识别过程中,许多
排序问题的大部分文献都假设机器总是一直可用的.然而在实际生产过程中并非如此.本学位论文考虑的是机器并非是一直可用的,即机器具有一个不可用区间.这里的不可用区间分两种
“羌”有广义和狭义之分。羌族是一个古老而伟大的民族,我国现在许多民族都是由古羌民族发展演变而来的,可以说古羌民族是一个“输血民族”。陕西省宁强县自古以来便是氐羌民
随着历史课程改革的不断深化,对历史教科书的研究越来越多,研究角度和内容也较为广泛。如研究一套历史教材编写方式、辅助系统及部分内容,或者对两套教材同一部分内容比较。
伴随互联网和大数据的发展,图像加密方法的研究就成为当前信息安全领域的研究热点之一。数字图像作为当代多媒体中信息的表达形式,传统的图像加密技术难以满足数字图像加密数
数学经验是数学教育中不可忽视的因素。近年来,在新课程标准改革背景下数学经验对于中学教学及学生学习的重要意义备受重视。数学经验在课堂教学中的高效应用离不开科学、高
在恒同机中每台机器都有相同的速度,这里我们假设所有机器的速度为1.这样工件的加工时间与机器没有关系,仅与它自身的长度有关.限选机器是指机器因功能不同导致工件在选择机