基于深度学习的自然场景文字识别与模型加速的算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zuozqzq7013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人们生活中重要的信息之一,除了存在文档中,在自然场景里也大量出现,如街道上商大楼的标识牌、道路上的各种路标、各种广告牌等。在计算机视觉领域,提取图像中的文字信息作为一项重要的辅助技术,为盲人出行辅助系统、自动驾驶、智慧城市等多个未来热门应用提供重要信息,因此一直是具有很高的研究价值和意义。而随着Alen Net[1]在2012的Image Net[2]图像识别挑战赛上大放光彩,一举超越传统方法,让深度学习名声大噪,从而被很多人用于场景文字识别之中。含有文本的自然场景图像中一般背景占面积较大而且复杂,直接从图像中识别文字非常困难。所以一般先做文本区域检测,定位出文本区域然后截取这一小部分图像再用识别算法得到最终的结果。首先本文使用PSENet[3]算法做文本检测,并加以改进,利用膨胀卷积来扩大其感受野,增强其长文本检测能力,提高精度和召回率,训练数据来自于在网络上下载的相关领域常用的数据集。对于文本识别,本文使用CNN+LSTM+CTCLoss[4]的结构来训练,数据使用自己开发的文本图像合成程序自动生成大批量的、变化丰富的文本图片作为训练集,最终也能达到较高的精度。基于深度学习的方法虽然极大的促进了场景文字识别的发展,但是有一个问题就是模型的计算量太大,在配置很好的GPU服务器上也需要较长时间才能获得结果,所以针对深度学习模型的推理加速方法的研究也应运而生。在得到训练好的高精度模型之后,为了加速其实际运行时间,通过调研国内外相关领域的最新研究,提出了本文的核心创新点,基于Group Lasso的定向加权的模型剪裁算法称之为DWGL[5],能极大的剔除深度学习模型中冗余的计算参数从而实现运行时的加速。在研究算法时,本文在公开数据集上用模型剪裁算法DWGL与其他前沿的算法做对比实验,达到了75%左右的剪裁比,然后写成论文发表在国际学术会议BMVC上(CCF)。在证明了剪裁算法DWGL的正确性与实用性之后把该算法应用到PSENet、CRNN这两个训练好的深度学习模型上,取得了很明显的加速效果。之后又进一步调研了NVIDIA的深度学习加速引擎—TensorRT的原理及用法,在实际工程部署中进一步加速以获取最极致的加速效果。通过这两个方法的结合,最终对PSENet和CRNN的实际运行速度都提升了5倍左右,而精度损失只有2%。
其他文献
根据基林曲线显示,全球二氧化碳的浓度还在继续增加,并且增速在不断地扩大。二氧化碳排放量的不断增多将进一步加剧温室效应,最终威胁人类的生存和发展。因此如何控制和减少二氧化碳的排放是当前亟需解决的问题。物流是能源消耗和碳排放大户,减少其过程中的碳排放将能够有效减少碳排放总量。因此如何减少物流过程中的碳排放成为了学者们研究的焦点。当前部分学者已经对考虑碳排放的车辆路径优化问题进行了相关研究,但由于这些研
农村教师的职业成就感与其教育教学水平紧密相关,成就感较高的教师往往工作热情高涨,在实际工作之中更有积极主动性和创造性来踏实认真的对待工作事务,而缺乏成就感的教师总是态度消极、动力不足,长此以往不免会对工作产生厌烦情绪引发职业倦怠的发生甚至会出现离职的倾向和意愿。因此,使教师在岗位上获得成就感是教师队伍焕发活力的关键。已有研究对职业成就感的研究主要探讨了教师职业成就感现状、影响因素以及提升路径,其中
“双生”题材戏剧在西方戏剧发展历史中呈现出两种鲜明的指向:其一是借由“双生”外部面貌特征相似或相同而发展出的“生理双生”题材戏剧,其二则是借由西方文化中“双生”观念发展、转化出的“自我双生”题材戏剧。“生理双生”题材戏剧中存在两个真实的双生客体(面貌相似或相同的两个人),而“自我双生”题材戏剧中双生的两个角色属于同一个客体。“生理双生”题材戏剧的出现可追溯至古希腊戏剧,在西方戏剧史中主要以喜剧的形
目的:探究显微镜下多血管炎(microscopic polyangiitis,MPA)中枢神经系统受累的临床特点、治疗与预后。方法:回顾性分析2010年1月1日至2019年11月1日就诊于天津医科大学总医院的138例MPA患者临床资料。根据有无中枢神经系统受累分组,比较两组临床特点、治疗及预后。采用Logistic回归模型分析MPA中枢神经系统受累的相关危险因素。采用Kaplan-Meier法分析
聚羧酸减水剂(PCE)是目前应用和研究最广泛的混凝土外加剂,添加少量PCE可显著提高混凝土的流动性和泵送性,改善硬化混凝土的抗压、抗弯强度和耐久性。目前,PCE主要通过水溶液自由基聚合法制备,浓度在20 wt%~40 wt%之间。PCE溶液不利于包装和运输,尤其是当施工地点距离太远时运输成本会成倍增加。与此同时,PCE溶液不能用于干混砂浆和灌浆料等建材产品的生产。机械化学法是通过机械球磨等方式输入
对于当前的一些司法人工智能应用来说,高效的文本分类技术是非常重要的,例如辅助量刑、法条推荐等。但是,中文司法文档非常复杂,传统的基于机器学习的分类模型通常无法有效地对其进行分类,原因是它们无法将分类过程与司法领域背景知识相结合。本文提出了一种本体驱动的知识块摘要方法来帮助计算司法文本相似度,并实现中文司法文档的分类。首先,从顶级本体和领域特定本体的角度出发,描述和表示了中文司法文档的领域背景知识,
惯性微流控分选技术以其无需外场、操作方便和高通量等优点得到研究者们的广泛关注,在化学、医学、生物化学和环境学等诸多领域都具有广泛的应用前景。本文以传统的缩扩(CEA)流道为基础,从颗粒的惯性聚焦与分离机理入手,研究三种典型的微流道制备方式,并分析缩扩流道的颗粒惯性操控过程,可应用于从人全血中分离血细胞、富集循环肿瘤细胞。在传统CEA流道中,颗粒主要在惯性升力和Dean曳力的耦合作用下进行迁移,颗粒
气态污染已经成为当今社会亟待解决的难题,二氧化氮、二氧化硫、一氧化碳、臭氧是其中重要的组成部分。明确气态污染物与心脑血管疾病是否具有相关性以及气态污染物浓度对不同人群影响是否具有差异,对气态污染物的治理、疾病的预防具有重要意义。目的本研究通过分析天津市气态污染物NO2、SO2、CO和O3浓度对急性心脑血管疾病住院人数的影响,探究天津地区气态污染物对心脑血管疾病的危害。方法1.实验数据:收集2013
水性聚氨酯(Waterborne polyurethane)利用水作为溶剂,具有挥发性小、成本低的特点,且性能介于塑料和传统橡胶之间,可实现材料的最大利用化,故而发展前景广阔。采用预聚体法制备了以聚己二酸-1,4-丁二醇酯二醇(PBA)与异佛尔酮二异氰酸酯(IPDI)为基础单体的水性聚氨酯乳液。探究了反应温度、反应时间及助剂用量对水性聚氨酯乳液及乳液膜性能的影响。结果表明,预聚体生成阶段的反应温度
在全面建成小康社会和社会主义现代化强国的背景下,实施乡村振兴战略是促进乡村治理与发展,助力全面小康社会建设和社会主义现代化强国建设目标实现的重要举措。乡村振兴战略的实现需要治理人才的支撑,更需要乡土治理人才,因此要积极引导和发挥新乡贤这类治理人才的作用,而新乡贤作为治理人才发挥功效的关键在于如何产生、培育和壮大新乡贤队伍。基于此,文章采用了文献分析、比较分析、历史分析,调查访谈的研究方法,从功能、