【摘 要】
:
基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法以其优异的物体识别和目标定位性能,被广泛应用于各个领域。然而,随着应用场景的复杂化,CNN的网络层数和计算复杂度逐渐增大,传统的中央处理器(Central Processing Unit,CPU)难以实现实时处理。此时,现场可编程门阵列(Field Programmable Gate Array,FP
论文部分内容阅读
基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法以其优异的物体识别和目标定位性能,被广泛应用于各个领域。然而,随着应用场景的复杂化,CNN的网络层数和计算复杂度逐渐增大,传统的中央处理器(Central Processing Unit,CPU)难以实现实时处理。此时,现场可编程门阵列(Field Programmable Gate Array,FPGA)因为具有较高的并行度、能效比和可重构的特性,成为CNN加速领域的研究热点。但是,现有设计主要针对吞吐率和能效比进行优化,系统延时较长,仍无法满足实时应用的需求。针对上述问题,本文提出以下几种新技术,进一步提高现有基于FPGA的实时目标检测系统的性能。(1)采用参数量化和批量归一化(Batch Normalization,BN)层融合技术,降低计算复杂度,缩短整体延时;(2)提出了一种基于列的流水线架构,显著降低流水线启动延时;(3)设计了一种双有符号数乘法封装方法,提高乘法效率,大幅缩短计算延时;(4)提出了一种设计空间探索算法,根据每层网络特点,进行硬件资源分配,提高资源利用率,增加吞吐率,缩短延时。(5)设计了参数化的卷积计算单元,可支持不同尺寸卷积计算,提高硬件的可扩展性;(6)提出了一种不含行缓存的池化单元,可以减少存储开销,提升系统能效比。为了验证提出的系统架构,本文在Xilinx ZC706 FPGA开发板上实现了YOLO2-tiny网络。最高工作频率可达200MHz,并实现了27.78ms的系统延时和95.2%的乘法器效率,吞吐率和能效比分别达到464.5GOPS和45.3GOPS/W。相比现有设计,显著缩减了系统延时,提升了乘法器效率。
其他文献
得益于深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)的发展,大量计算机视觉任务取得了传统算法难以达到的表现。但是,由于大量冗余特征的存在,这些基于DCNN的优秀模型会消耗大量有效的存储和计算资源,通常难以部署在资源受限的平台。如果我们能够用一组正交的特征来表示所有特征,则可以用一个轻量级小网络来代替复杂卷积神经网络,且不带来任何精度损失。因此,在
疾病是威胁人类健康的主要因素之一,其中糖尿病和胃癌是对中国人危害最大的两种非传染性疾病。有研究指出,经早期诊断后及时治疗,不仅能降低这些疾病带来的痛苦,还能增加治愈率和存活率。电化学是研究电现象和化学现象之间相互转化的科学,电化学生物传感器具有特异性好、重复率高、稳定性好、实验操作过程简单等优点,现已被广泛研究于生物医学工程领域中。而金属纳米材料大多具备良好的导电性,且易被化学或生物修饰处理,近年
随着互联网的高速发展,各种信息资源呈现井喷趋势,仅仅依靠搜索引擎已经难以为用户提供优质的信息服务。为了缓解信息过载问题,各大公司纷纷构建推荐系统,为用户提供精准的个性化推荐服务。在一些网站上,用户可以随意为喜欢的物品打上社会化标签,这些标签不仅可以反映用户的偏好和态度,也折射出物品的内在属性。因此,标签感知推荐系统将这些协同行为产生的社会化标签作为一种内容信息,为用户提供个性化的物品推荐。为了解决
跨年龄人脸识别作为通用人脸识别研究的细分方向之一,在金融、安防监控、智能手机应用等诸多领域都具有重要的应用价值。跨年龄人脸识别由于受到人脸皱纹随着时间变化而加深、颅骨形状改变等因素影响,比通用人脸识别任务难度更大,识别准确率也相对更低,并且由于跨年龄人脸识别研究较通用人脸识别而言起步晚,现有的方法也相对较少。鉴于此,本文针对跨年龄人脸识别问题展开更进一步的研究。首先,鉴于ResNet50网络模型在
随着信息技术的不断发展,人们对信息的安全性越来越重视,出现了软件和硬件两种主流的加密方式。软件加密由于其加密方式简单,并且不会破坏传输信号的性能,一直被广泛应用。但由于量子计算机的出现,计算机性能的不断提升,软件加密算法逐渐会在短时间内被暴力求解的方法破解。所以现在人们越来越关注硬件层面加密,混沌加密作为一种物理层加密方式,可以实现信号的高速长距离安全传输,和现有光通信系统兼容,获得了国内外持久的
随着移动互联网的高速发展,各种Android应用为手机上网带来了巨大便利。但是,由于Android系统的开源性也产生了许多恶意应用程序,对网络安全造成了严重威胁。此前,研究人员主要基于静态代码和动态行为对Android恶意应用进行识别与分类,这两种方法计算复杂度太高,没有得到良好的普及。由于恶意应用通过诸如僵尸网络等渠道执行恶意行为,因此可以通过分析恶意应用产生的网络流量对恶意应用进行分析检测。基
据IDC数据显示,2019年前两个季度全球智能手机累计出货量约6.4亿台。在如此庞大的出货量上,不允许在研发阶段漏掉任何一个应用崩溃、系统死机或重启等稳定性问题。稳定性是保障用户长时间流畅使用设备的核心需求。随着安卓系统更新频率逐步加快,手机制造商为了抢占市场不得不缩短研发周期。因此,如何在短暂研发周期内快速发现并解决稳定性问题,为用户提供更高品质的手机,成为各大厂商研究的重要课题。本文基于安卓系
卷积神经网络逐步成为人工智能应用的基础,然而网络参数量的增加,加大了其部署难度,限制了其应用范围。如何设计轻量化算法和快速低能耗硬件加速器成为研究热点。本文基于权重压缩算法,探究网络稀疏化和低位宽推断技术,提出一种使权重稀疏化且量化为幂次的轻量化算法,并采用Image Net数据集完成算法的验证。面向该算法,本文设计了一款基于移位的稀疏卷积神经网络加速器。针对稀疏网络权重少但运算不均衡的特性,对稀
推荐系统通过推荐算法以个性化的方式向用户提供其可能感兴趣的内容。推荐算法有基于内容的推荐和基于用户行为的推荐两种。基于内容的推荐算法需要使用用户及物品的特征,对于不同的场景这些特征都会有很大差异,针对各种场景分别构建特征与模型会增加研发和运维成本。基于用户行为的推荐算法虽然可以复用到不同场景,但只考虑了用户和物品的交互,没有考虑用户行为的时序性。如何利用用户行为的时序性改进基于用户行为的推荐算法是
多智能体系统将会是未来最重要的智能体系统之一。诸如无人驾驶、机器人集群、以及竞技类运动的训练系统都是多智能体系统的应用。在多智能体系统中,协作是一种非常重要的智能体之间交互的方式。在现有的方法中,基于通信的多智能体协作是计算量最低、最有效的方式。然而,现有的方法存在通信量过大、不够稳定等问题。为了减少智能体通信量、提高系统整体稳定性,进而提升多智能体协作系统整体成功率,本文提出了一套基于特征化信息