自然场景文字定位与识别技术研究

来源 :辽宁工业大学 | 被引量 : 0次 | 上传用户:kang573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类进入文明时代的的重要标志,结合最新的信息技术对文字进行定位与识别具有现实意义。21世纪的第二个十年,人工智能被推上社会舆论的风口浪尖,交通标志识别、证件识别、票据识别等投入实际应用,使自然场景的文字定位与识别研究成为了热点问题。不同于文档文字的定位识别,自然场景中的文字由于其字体丰富、背景复杂、光照不均、异物遮挡、多维排列、图像变形等因素而识别困难,传统方法难以解决,深度学习技术的发展将自然场景的文字定位与识别带入了新的时代。本文结合深度学习算法对自然场景中的文字定位和识别技术进行了研究,主要的工作内容如下:(1)在自然场景文字定位方面,本文提出了基于改进Cascade Mask RCNN的文本定位算法,改进了文本特征提取网络,将特征金字塔网络和Res Next结合,改善了其检测多尺度特征的能力,平衡了网络复杂度和精度的两难问题。为适应场景文本长宽比较大的特点,我们设计了一个inception结构的卷积核来解决这些挑战。进行了实验验证,使用公开数据集,从召回率、准确率和综合指标F-score三个角度证明本文算法的有效性。(2)在自然场景文字识别方面,提出了基于改进CRNN的文字识别算法,在进行文字识别之前,将文字识别视为Seq2Seq问题,使用基于薄板样条插值(Thin Plate Spline,TPS)的空间变换网络(Spatial Transformer Networks,STN)对不规则、透视图像进行矫正,矫正后的图像送入卷积神经网络提取图像的静态特征,使用Bi GRU网络代替了网络结构复杂、参数量大的LSTM网络对特征序列进行上下文序列编码,结合注意力机制的Bi GRU算法进行序列解码,得到识别文字识别结果。通过消融实验验证了不同的特征提取网络对识别准确性和计算开销的影响,证明了Bi GRU的引入对模型精度和复杂度的优化作用,在公开数据集上验证了空间变换网络对模型的识别效果具有提高作用,证明了空间变换网络对识别结果的提升作用。本文研究了现有文字定位和识别方法在自然场景数据集上的优缺点,提出了优化的方法,在一定程度上解决了自然场景文字定位与识别的问题,对场景文字识别的后续研究有一定的参考价值。
其他文献
随着人工智能技术高速发展,目标检测技术在各个领域都有着非常广泛应用,作为目标检测的分支,行人检测技术也取得突破性进展,成为智慧城市、智能监控、智能家居、自动驾驶等领域必要的关键技术之一。但随着雾霾天气频发,复杂的天气状况给行人检测技术带来影响,如何消除雾霾影响,确保行人检测技术在雾霾天气背景下具有较高的准确性仍有一定的挑战。因此,本文针对雾霾天气下的行人检测任务进行以下研究:(1)提出一种以暗通道
混凝土作为工程建设过程中不可缺少的建筑材料,由于其工作性能的优越进而被广泛应用在土木工程领域。混凝土的大量消耗,再生混凝土逐渐出现并用来代替混凝土实现节约资源的目的,同时再生混凝土在工作性能方面的缺点也逐渐暴露出,生活中随处可见由于再生混凝土自身强度不足而引起建筑结构的破坏。基于此,当下的研究热点是如何提高再生混凝土的强度和工作性能。目前,混凝土结构加固中,再生混凝土的力学性能可以通过加入纤维的方
日本中小学道德体验教育注重培养学生在社会和生活中的道德实践能力,经过几十年的教育实践,日本中小学道德体验教育的教育目标明确、课程设置较为合理、教育形式更为多样丰富,通过学校、家庭、社会等多方配合,取得了明显效果。研究日本中小学道德体验教育的实践经验与规律,对丰富和拓展我国中小学道德教育的理念、内容、方法等方面都有较强的的现实和理论意义。道德体验教育是指让受教育者在道德实践活动中通过反思体验和体验内
煤炭,石油,燃气等不可再生能源日益枯竭,环境问题日益严重,分布式电源的应用受到了广泛的关注。随着分布式电源在电网中所占比例的提高,逆变器所担任的角色也应该发生变化,逆变器不仅应能够向电网提供电能,还应能对电网提供功率支撑。针对高渗透率下逆变型分布式电源并网,本文研究了基于偏移度分区的多模式切换控制策略。首先,就目前而言,逆变器主要的运行控制模式有恒功率控制、恒频恒压控制,下垂控制等等,控制模式不能
高熵合金因其独特的性能特点,拥有广阔的应用前景。等原子比高熵合金多数为BCC或FCC单相结构,很难达到强度和韧性兼具。因此,研究者们突破等原子比或近等原子比的限制,得到许多双相结构并具有优良力学性能的高熵合金。本文以等原子比Ni FeCoCrAl合金和Ni Fe VCrAl为基础,逐渐提高Ni元素的原子百分比,分别制备了一系列Nix(FeCoCrAl)100-x合金和Nix(Fe VCrAl)10
随着我国经济的快速增长,工程项目的逐年增加,工程项目团队作为施工过程的主体已经受到了越来越多的关注,而团队绩效作为工程项目团队重要考核指标,如何有效提高团队绩效已经成为管理者目前急需解决的问题之一。在团队运作中,项目团队成员通过信息共享、技能交互和交互记忆等方式,不仅可以营造良好的团队氛围,保质保量完成施工过程中的每一个环节,同时还有利于团队绩效的提高。然而,对工程项目而言,团队成员之间常常会因为
柴油中含有的氮化物对其加工、储存、运输和使用均有较大危害。这些氮化物会促进柴油中其他非烃类化合物发生反应,生成胶质沉淀,进而影响柴油的色泽、安定性和稳定性。本论文主要研究活性氧化铝对于含苯胺或吡啶模拟燃料的吸附脱氮性能,考察了吸附脱氮时间、吸附脱氮温度、吸附剂用量等影响吸附因素对其综合脱氮吸附效果的影响。由实验结果可知,吸附剂用量对吸附苯胺或吡啶的影响较大,最佳吸附剂用量在1.6g(15 m L模
协同过滤推荐系统被广泛地应用到电子商务网站等诸多领域,可以有效解决“信息超载”问题。但是,随着新用户和新项目的不断增多,推荐系统面临冷启动问题的挑战,它的存在严重影响了推荐系统的推荐质量,从而降低用户对系统的信任程度以及影响商家的经济利益。因此,如何解决推荐系统所面临的冷启动问题,提高系统的推荐质量已经成为一个值得研究的热点问题。本文基于用户冷启动问题,从非纯冷启动和纯冷启动两方面展开研究,致力于
随着通信技术的发展,无线通信已经成为现代通信的主要通信方式,在无线通信系统中,通信参与者之间相互独立,使得信息更加高效的在信道中传输。然而,传统的防窃听信息传输方法大多数是采用密码密钥体制,通过对传输的信息进行加密,从而达到保护信息安全的目的。但是如果密钥被破解导致信息泄露,则会产生巨大的损失,对无线网络安全带来了巨大的挑战。近年来的大量研究证明,由于LT码具有编码随机性、编译码复杂度低、结构简单
随着时代的快速发展,以及连带着我国城市化发展进程的不停息地向前推进,人民大众对基本性公共设施的使用量也不间断的在增加。地方行政主管部门的财务能力不能够满足人们面向基本性公共设施和服务质量的需求,因此PPP模式在基本性公共设施和公用服务领域越来越受到欢迎。面向PPP项目所进行绩效评估,不仅能够及时发现PPP项目实际运营过程中所出现的一些偏差,保证PPP项目最大程度的实现项目建设之初所设定的经济价值目