自然场景文字检测模型的加速与压缩

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lydia1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景文字信息在人类的日常生活中扮演着重要角色,例如商标上的文字可以提供商品信息、路牌上的文字可以指示方向等。场景文字的自动化检测和识别能够帮助人们更好地理解周围的世界,方便人们的出行。场景文字检测作为文字电子化系统中的第一步,对后续的识别效果起到关键性作用,一直以来都是计算机视觉领域的重要研究问题。近年来,随着深度学习在人工智能领域的兴起和快速发展,采用深度卷积神经网络来解决自然场景文字检测问题也取得了成功,在检测性能和应用场景上都实现了巨大地提升。但深度神经网络通常需要消耗庞大的存储空间和计算资源,限制了自然场景文字检测在移动端、嵌入式等资源受限的小型设备上的使用。因此,对场景文字检测模型进行加速压缩,使模型能够降低计算复杂度和存储空间,具有广泛的应用前景。针对上述问题,本文从场景文字检测模型的结构、层、参数多个层次上进行了加速压缩,实现了移动端上的场景文字检测。本文的工作主要包括以下三个方面:1)构建了一个能够检测任意文字形状的场景文字检测器,并对检测器进行计算量和存储量的分析。以深度可分离卷积为核心,提出了对检测器各个模块进行轻量化设计的方法,得到了一个适用于移动端的轻量化场景文字检测模型。2)对轻量化设计的模型,进一步提出了通道剪枝和低比特量化的方法进行加速压缩。在通道剪枝中,我们采取了两种不同的剪枝方法对模型进行剪枝,并对各自的适用情况进行对比分析。在量化实验中,我们采用了线性对称量化的方式,并提出了对浮点数范围进行截断的方法和量化层回退策略,平衡了量化后模型的检测性能和加速压缩需求。3)通过结合一系列工程优化手段和加速压缩算法,我们在移动端上对模型的前向进行开发和测试。在ICDAR 2015数据集上F-score值达到78.71%,每张图片在移动端的检测时间为749.15ms,模型大小为517KB,满足移动端的需求。当减小输入图片尺寸时,检测时间能够进一步降低到426.41ms。通过对模型和代码进行封装,我们开发了一款安卓手机应用,并在实际生活场景中进行测试。
其他文献
线性森林是所有的连通分支都是路的图,而线性k-森林是所有的连通分支都是长度不超过k的路的图.1970年,Harary提出了图的线性荫度的概念,图的线性荫度就是把图的边集分解成互
在我国目前的司法证明研究领域,所关注的对象主要集中在证据方面,对与其密切相关的证明则较少受到关注,而对司法证明概率论的问题更是鲜有探讨。与西方的研究态势相比,“司法
最近日渐成熟的第五代(5G)无线网络技术已在世界范围内进行部署。对下一代(6G)通信的基础研究也在逐渐开始,而随着6G系统所需的信道容量已远超当今的信道容量,具有比射频频段
三元复合驱采油技术是现阶段大庆油田稳产、增产的重要技术手段,然而,大庆油田实施强碱三元复合驱的区块在生产过程中,结垢问题日益突出,严重影响了油田的正常生产。堵塞物主要成分包括石油重组分、聚合物包裹的碳酸盐垢、硅垢等。由于增产弹含能材料燃烧使得燃烧区域附近的水体进入超临界状态,可对石油重组分、聚合物裂解改质,同时燃烧产生的酸性气体形成酸液,对碳酸盐垢、硅垢酸化溶蚀,达到解堵效果。本论文对三元复合驱的
伴随着信息技术的蓬勃发展,机构和个人用户产生的数据量急剧增大,导致WEB用户难以高效获取有价值的信息。推荐系统主动预测用户需求,为用户推荐可能感兴趣的数据,是抑制信息
焦虑一直以来无论作为人格特质还是情绪变量都是当今心理学研究的热点问题,个体在焦虑情绪下会引发攻击性行为,而过高的攻击性会不仅影响自己与他人的身心健康,更会不利于社
为了满足应用需求,获得高分辨率的卫星图像,需要发展大口径、长焦距的空间遥感光学系统,但是受到人力和物力资源的限制,给高分辨率空间遥感器的研究和发射带来很大的阻碍。因
mTOR是个多功能的蛋白,除了通过其底物S6和4EBP调控蛋白质翻译,还在自噬、细胞周期、细胞运动、分化等多个层面调控细胞的生命活动。研究表明,AKT-mTOR信号轴是调控肌腱发育
为了考察母语与二语对工作记忆Stroop效应的影响及其神经机制,以中、英文词为实验材料,以国内大学生为被试进行了实验研究。行为结果显示:两种实验材料“不一致”反应时均大
人脸年龄估计是人脸属性预测领域的关键任务,它的目标是实现对给定人脸图片的准确年龄估计。目前,得益于卷积神经网络的迅速发展,人脸年龄估计的准确度也得到了明显的提升。