基于权重二值化神经网络的高能效加速器软硬件协同设计

来源 :东南大学 | 被引量 : 0次 | 上传用户:baei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网(Internet of Things,IoT)和人工智能(Artificial Intelligence,AI)的发展,两者的融合(AIoT)正描绘出万物智联的宏伟蓝图。基于对数据私密性和低时延的需求,本地化AI芯片备受青睐。然而,物联网节点一般采用微型电池或能量收集技术进行供电,这对AI芯片提出了严苛的低功耗和高能效要求。在此背景下,本文对AI常用技术—卷积神经网络(Convolutional Neural Network,CNN)算法及其硬件加速方法展开了深入的研究,完成了基于权重二值化神经网络(Binary-Weight Neural Network,BWN)的高能效加速器软硬件协同设计与电路实现。在算法级设计了一种既相对精简又极具硬件执行效率的低位宽Shuffle型分组CNN,解决常规CNN参数量和计算量大,MobileNet等紧凑型CNN特征值复用率低、对量化误差敏感、网络中间数据量多的难题。该网络的权重为1bit,特征值为4bit,在CIFAR-10数据集上的测试准确率为85.8%,计算量比常规CNN降低了 29%。在架构级设计了一种基于预计算的逐列卷积计算单元(Processing Element,PE)解决BWN中存在的重复计算问题,它可降低62.5%的计算量。基于此PE,设计了一种具有高数据复用特性的存储和计算架构,具有三级存储层次和一个二维PE阵列,列方向和行方向上分别进行卷积窗和输出通道的并行计算,通过广播和共享权重及特征值的方式降低访存,其在卷积层的利用率可达100%,且支持全连接层的计算。三级存储层次由SRAM、全局缓存和PE内局部缓存构成,配合输出数据复用的数据流使得输入特征值、权重和输出特征值的平均访存次数分别仅为1.11、1.98和1次,配合乒乓存取的数据调度方式极大地降低了空闲周期。针对Shuffle型组卷积,提出了“重组卷积核通道,顺序取特征图通道”的数据存取方式,相比于常规方式可减少一半以上的访存次数。在电路级设计了一种基于锁存器的多阈值寄存器堆,解决传统基于SRAM或触发器的局部缓存面积和功耗大的难题,它在保证累加路径时序的基础上可降低25.8%的整体功耗以及19.6%的PE阵列面积。采用TSMC 28nm工艺对以上算法、架构和电路三级协同的优化技术进行电路实现,电路版图面积为1.38mm2,包含74kB的片上SRAM存储和115万等效逻辑门(NAND2)。在TT工艺角、0.5V NN CORE/0.72V SRAM工作电压、25℃温度条件、20MHz工作频率下的后仿真结果表明,本文设计的硬件加速器功耗为0.588mW,能效为42.4TOPS/W,CIFAR-10单张图识别能耗为1.94μJ,帧率为303fps,高性能模式下的计算密度为668 GOPS/mm2。单张图识别能耗、功耗和计算密度等指标相比于同类的先进研究具有一定优势,达到了预期设计目标。
其他文献
城市综合交通系统是由道路网络、公共交通、枢纽、停车设施等多个子系统构成的动态系统,是一个既相互联系又相互独立的统一体。在这种多模式网络衔接的交通环境下,出行者的出行多表现为组合出行方式,使得多模式综合交通系统在网络供给性能、出行行为决策、交通需求与供给平衡以及资源协同规划配置等方面也表现出更高的复杂性,用解析方法难以刻画。因此,一套完善的多模式交通仿真系统可以作为分析交通出行方式构成、行为特征和交
新型非线性光学材料推动了非线性光学这一学科的发展,在光通信、光开关、光存储等领域显示出了广阔的应用前景。寻找和制备具有大的非线性光学效应、快的非线性光学响应时间、物化性质稳定以及功能丰富的非线性光学材料一直是科研人员研究的热点之一。时至今日,人们广泛开展了诸如有机分子材料、铁电薄膜、半导体材料、纳米材料和二维材料等多种类型的新型材料的非线性光学效应及其应用研究。新研制的非线性光学材料能否具有实际应
随着智能产品在人们日常生活中越来越普及,用于监测人类生理健康和日常活动的柔性和可穿戴电子产品近年来受到越来越多的关注。开发出具有多功能、高灵敏度、快速响应、低成本的柔性压力传感器在医疗卫生、运动健康监测和人机交互等方面都具有重要的现实意义。本文以制备高灵敏度、能快速响应的高性能柔性压电传感器为研究目的,以无机压电材料锆钛酸钡钙(Ba(Zr0.2Ti0.8)O3-0.5(Ba0.7Ca0.3)Ti
进入21世纪以来,我国学术道德规范政策历经起步探索、建设推进和内涵发展三个阶段的变迁。从历史制度主义的分析视角,考察出学术道德规范政策的变迁逻辑:政府决策、社会经济发展、社会思想观念是其深层结构;政府决策的自我强化动力和高校行动者忠诚于现存政策是其主要的路径依赖;系统的内生因素和外部因素的复合作用是学术道德规范政策变迁的动力机制。为此,我国学术道德规范政策需要建立评价与监督机制,完善学术治理体系;
合成染料的广泛使用不仅会对水资源环境造成难以解决的困扰,更会对人体健康带来危害。因此合理处理染料污水,降解染料分子对于环境保护和安全健康等领域具有非常重大的意义。非晶合金由于独特的原子长程无序结构和亚稳状态表现出的高催化活性,近年来在催化降解领域展现出巨大魅力和潜力,也为污水治理行业的应用提供了理论基础和实际可行性。本论文通过不同元素微合金化,设计制备具有优异光催化降解性能的铁基非晶/纳米晶合金薄
混凝土作为用量最大的人造材料,在可预见的未来仍将不可取代。然而,传统混凝土工业正面临三大空前危机:由天然砂石骨料紧缺带来的资源危机;由废弃混凝土堆积造成的环境危机;由水泥熟料煅烧导致的碳排放危机。为保持建筑业的可持续发展,废弃混凝土制备的再生骨料已应用于实际工程,但利用简单破碎工艺所产生的再生骨料强度低、吸水率高、离散性大、品质差,未能从根本上解决结构混凝土用天然骨料资源短缺问题,且破碎过程中产生
随着智能网联、5G等技术水平的不断提高以及生产成本的逐渐下降,自动驾驶将迎来一个全面发展的时期。未来很长一段时间内,人类驾驶车辆将与自动驾驶车辆、辅助驾驶车辆共同行驶于城市路网中,形成具有新型特征的混合交通流。因此,针对混合交通流的建模与仿真,自动驾驶虚拟仿真测试的相关研究必将成为智能交通领域的热点问题。然而,现有交通仿真软件均存在缺乏自动驾驶车辆模型的问题,自动驾驶仿真软件则无法提供真实的交通流
计算机算法的性能提升可以为日常生活中的各种应用带来颠覆性的改变,本文面向视频流的人脸超分辨处理算法,旨在将原始低分辨视频中人脸部分进行真实还原处理,在提升目标人脸图像分辨率和清晰度的同时有效提高人脸识别的准确性,为人脸识别技术的运用提供更好的应用场景,为公共安全领域提供良好的技术支撑。本文结合视频超分辨算法和人脸超分辨算法两项关键技术,并在此基础上实现算法在边缘计算平台FPGA上的部署。本文从基于
学位
在MEMS制造领域,光刻工艺是其中举足轻重的一环。在器件尺寸逐渐减小的当下,光刻工艺的复杂性大大增加,在实验室或者生产线上进行各种实验无疑是需要大量时间和费用的,这使得光刻工艺仿真成为一种越来越有用的方法。利用光刻仿真不仅能够准确地预测在不同参数下得到的工艺结果,也可以帮助科学家以及工程师更加深入了解光刻的内在原理从而发现新的技术。在具体的工艺中,曝光可以分为接触式、接近式和投影式三种方式。本课题