面向图像重构的深度神经网络加速器设计与实现

来源 :福州大学 | 被引量 : 0次 | 上传用户:philippetr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像重构是图像处理领域中的一种重要方法,通过该方法能够将成像系统中的样本观测信息进行求逆,重构出原始的样本图像。过去三十多年内,研究人员陆续提出了反卷积、全变分以及压缩感知等图像重构模型,已经广泛应用于医学成像、图像降噪、去模糊、超分辨率重构等方面。近年来,深度神经网络(Deep Neural Network,DNN)模型在图像分类、语音识别上取得了令人瞩目的成效,激发了研究人员对DNN模型研究的热情,面向图像重构的DNN模型逐渐成为了研究的热点,设计出的DNN模型改善了图像重构的性能。图像处理器(Graphics Processing Unit,GPU)是一种能处理大规模并行计算的硬件架构,被广泛的应用于DNN模型的训练和推理,有效的加速了DNN的实现。近年来,随着GPU嵌入式设备的快速发展,研究人员已经利用嵌入式设备实现了分类识别的DNN模型。然而,不同于分类识别的DNN模型逐层减少特征维度的特点,图像重构DNN模型的特征维度可能与输入维度相等甚至更大,这将造成计算量的明显增加。同时如UNet、Res Net等大部分图像重构DNN模型都存在网络不对称的特点,导致在计算上分布不均匀,无法实现并行化设计,因此难以在对计算均衡有极大要求的GPU嵌入式设备上快速实现。针对面向图像重构的DNN模型网络结构不对称的问题,本文基于图信号处理的思想,利用图结构的计算均衡分布特性,对DNN模型结构进行修改,使模型计算均衡化,提升GPU资源利用率。为了验证图信号处理的有效性,实验以基于近似的自动变换(Automated Transform by Manifold Approximation,AUTOMAP)模型为研究对象,利用图卷积代替传统的卷积、反卷积操作,通过对比发现,基于图信号处理的AUTOMAP模型与原始AUTOMAP模型都能收敛到相近的损失值。为了进一步加速DNN模型,基于GPU的CUDA编程模型,本文对优化后的AUTOMAP模型实现并行化加速设计。利用cu BLAS库对全连接层实现并行化加速。利用拉普拉斯矩阵的稀疏性,提出了用ELLPACK-R格式进行存储,有效节省了存储空间,并采用负载均衡的稀疏矩阵向量乘并行优化策略提升GPU的执行效率。根据切比雪夫多项式迭代的特性,利用基向量的思想实现并行加速策略。针对大型矩阵相乘,采用分块的思想,结合GPU共享内存快速实现。实验运行在英伟达的Jetson AGX Xavier嵌入式平台上,通过并行优化设计,将面向图像重构的DNN推理模型实现在嵌入式平台上,充分利用存储和计算资源,提高模型的计算效率。
其他文献
近距离通信技术的推广和应用极大的方便了人们的生活与工作,在智能化设备广泛普及的当今社会,越来越多的使用者希望可以体验到更加多元化的近距离通信技术。使用者在体验一种通信技术时除了会关注通信的效率、连接的稳定性等问题外,还越来越多的关注到了通信的安全性问题。随着使用者关注点的改变以及使用者对更多元化的体验存在着的需求,新的通信技术的出现便有了市场,声波通讯技术和之前的那些已经存在的近距离通信技术相比有
近年来,市场对便携可穿戴电子设备的需求越来越大,急需设计和制造柔性锂电池,尤其是柔性电极材料。过渡金属二硫化物以及三磷化锗(GeP3)具有与石墨烯相当或更好的力学、光学、电化学、热学和电子性质。基于过渡金属二硫化物和其他层状化合物来构建具有优异性质的新型异质结成为目前研究热点。本文构建基于过渡金属二硫化物MX2(M=W、Mo、Nb;X=S、Se、Te)和GeP3的新型异质结,采用密度泛函理论的第一
有机光敏晶体管(organic phototransistors,OPTs)因其相对于光电二极管(photodiodes)具有更高的光增益和信噪比,在图像传感、光通信、生物医学传感等领域中具有广阔的应用前景。然而,有机光敏晶体管大都是基于平面结构有机场效应晶体管,其较长的沟道长度(几十微米)增大了光生载流子在传输过程的复合率和被薄膜内部缺陷及晶界的散射率,降低光生载流子的收集效率,从而导致器件具有
在我国的桥梁建设中,PC箱梁桥作为主跨200m范围内的首选桥型之一,具有造价低、施工简易便捷、维护费用少等优势。但是由于其自身材料固有属性的原因,PC箱梁桥在长期服役中被发现普遍存在跨中过度下挠和梁体开裂两大问题,跨中过度下挠会加剧裂缝发展,梁体开裂又会加大跨中挠度,两者相互影响形成恶性循环,限制PC箱梁桥的发展。基于超高性能混凝土(UHPC)的研究应用,湖南大学UHPC研发团队提出了密集横隔板U
随着预印本网络在学术界的流行,在预印本网络上进行合作者推荐、期刊推荐等关系预测具有实际的应用需求。然而,预印本网络本身拥有的信息比DBLP等经典的文献网络少很多,如果直接在上面进行关系预测任务时,受信息稀疏性影响明显。由于预印本网络与其它经典文献网络间存在不少共享实体,所以如果能通过这些共享实体获取外部经典文献网络的信息支撑,将有助于降低信息稀疏性影响而提升关系预测准确性。为此,本文以文献网络的跨
多目标检测和跟踪方法是目前视觉领域的重要组成部分,该方法已经广泛应用于智能驾驶、公共安防等领域。由于复杂多变的现实环境、运动目标的不规则性和目标数量的未知性等内外干扰因素,使得现有的多目标跟踪算法运用于实际问题时在准确性、鲁棒性方面仍有较大不足。本文在福建省重点科技项目(2017H6009、2018H0018)的支持下,针对多目标跟踪过程中目标存在遮挡、尺度变化以及目标数量不固定等复杂情况,提出基
换热器是众多工业应用中的重要组成部分,翅片管式换热器是广泛应用于空调工程领域的紧凑式换热器的一种。为了充分利用和节省能源,就需要研究强化换热的技术,用来进一步提高其换热器的换热特性。空气侧热阻占换热器总热阻的70%到90%,因此要提高换热器的总体换热性能,就必须对强化空气侧换热性能的技术进行深入研究。本文通过CFD数值模拟仿真技术对平直翅片、人字型波纹翅片以及装有涡流发生器的平直翅片和人字型波纹翅
当高速路上遇到交通事故或者进行道路检修的时候,需要用交通路锥将该区域进行隔离,以起到警示与交通引流的作用。在国内,通常是采用人工的方式,手动对路锥进行取放。这种方式不仅使工人暴露于危险的环境中,而且还存在着效率低下,成本高的问题。因此,路锥自动取放设备随之应运而生。当前的路锥自动化设备虽然能够实现简单的路锥取放,但普遍存在结构复杂,灵活性差的缺点。而机械臂凭借其所占空间小、运动灵活、速度快等优点,
电极材料的选择对超级电容器的性能具有决定性影响。贵金属IrO2导电性好,价态丰富,可通过自身的氧化还原反应实现能量存储,是优秀的电容储能电极材料。Co3O4的成本较低,电化学活性高,理论比电容可达3560 F/g。IrO2与Co3O4具有良好的协同作用,目前有关IrO2与Co3O4复合的氧化物涂层电极材料的报导较少。本文采用热分解法制备IrO2-Co3O4/Ti、IrO2-Co3O4-G/Ti、I
随着当前互联网技术和多媒体技术地迅猛发展,网络视频信息呈现出爆炸式增长的形势,如何有效而且自动化地对视频数据进行浏览、管理和检索已然成为目前计算机视觉领域中的研究重点。视频分割是指在时域上将一个视频拆分成多个语义片段,这些语义片段通常来说,是根据用户意图来定义的某些特定概念或主题。视频分割的意义在于可以通过将视频划分为多个独立的语义单元来对需要处理的视频构建目录,实现对视频地快速浏览,以及找到视频