基于注意力机制和超分辨率的场景文本识别研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:a11253919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本识别(Scene Text Recognition,STR)是指识别自然场景图像中的文本。印刷文本大多经过排版,其背景单一、清晰度高。相较于印刷文本,识别各类场景中的文字,其难度更具挑战。目前,场景文本识别研究存在以下问题:第一,使用较为广泛的编-解码器结构的识别模型,大多以LSTM(Long Short-Term Memory)作为解码器。由于LSTM是多个重复模块串联组成的链式结构,只有前序模块计算完成后,后续模块才能开始计算,即LSTM的计算过程是串行的。因此会导致其作为解码器时,存在收敛速度慢、训练时间长等问题。第二,自然场景中的文本具有背景复杂、字体样式多样、成像质量差等特点,这导致其识别难度较大。本文针对场景文本识别存在的上述问题,开展的主要研究工作如下:针对模型训练时间长和场景文本图像成像质量差的问题,本文采用Transformer来提高模型训练速度,采用基于混合注意力机制的超分辨率单元来提高场景文本图像的成像质量,提出了基于Transformer和超分辨率的场景文本识别模型(Transformer-based Scene Text Recognizer with Super Resolution Unit,TSTR-SRU)。Transformer是基于多头点乘注意力机制加以实现的,因此易于并行计算。在所提出模型中,超分辨率单元通过侧接方式进行连接,即:超分辨率单元在模型训练阶段只参与正向传播过程,而不参与反向传播过程。实验结果表明,本文所提出的TSTR-SRU模型对比以LSTM作为解码器的STR模型,训练速度有明显提升;超分辨率单元在不影响训练速度的情况下,可提高识别性能。此外,针对Transformer不完全适用计算机视觉任务的问题,本文对上述模型进行改进,提出了基于Vision Transformer和超分辨率的场景文本识别模型,(Vision Transformer-based Scene Text Recognizer with Super Resolution Unit,VTSTR-SRU)。该模型结合Vision Transformer,在训练阶段通过使用多种数据增强方式和加载Dei T(Distilled Vision Transformer)模型的预训练权重的方式,进一步提高识别性能。实验结果表明,本文所提出的VTSTR-SRU模型在多个数据集上表现优异,尤其在不规则文本数据集IC15,SVTP和CT80上,与基准模型相比,其识别准确率分别提升9.1个百分点、5.6个百分点和1.7个百分点。
其他文献
近年来随着网络的普及,大量社交应用随之出现,得益于其便利性,越来越多的人们将其作为了解世界热点的主要媒介之一。利用社交网络人们可以很快地建立社会关系,并对共同关注的某一社会热点事件进行沟通交流并分享自己的看法,社交网络已经成为人们生活中必不可少的一部分,它是人们现实生活在虚拟世界中的映射,反映了现实生活中人们的生活状态,对其进行研究能够发掘出现实生活中不易察觉的潜在信息,有着很高的研究价值,近年来
学位
本论文,相关前期研究的基础上,主要运用描写法把《穆卡迪玛特·阿勒—阿达布蒙古语词典》名词的语法范畴系统的描写并解析。主要解析研究名词语法范畴之附加成分的呈现形式及使用范围和所表示的意义及功能。《穆卡迪玛特·阿勒—阿达布蒙古语词典》名词的语法范畴中的附加成分呈现形式和使用范围虽在其他论文或者在书籍中提到过,但是本论文更加深入解析并整理出其它论文或书籍中未提到的附加成分或变体。这是本论文的一大特色。本
学位
《大元国史水晶珠》是蒙古族18世纪历史散文之作之一。简称《水晶珠》,由巴林右旗协理三等台吉拉喜彭斯克编撰。拉喜彭斯克从《清乾隆三十九年(1774)开始撰写大元国史水晶珠》,至乾隆四十年(1775)告竣。在《水晶珠》中叙述了蒙古族的渊源解释了“蒙古”一词的含义以及当时蒙古的社会概况。叙述了成吉思可汗的祖先、成吉思可汗到额尔克洪格尔的史实以及成吉思可汗的箴言等。其中有汉文《元史》及《资治通鉴续编》上所
学位
实施公立医院人力资源管理时,制定科学合理的人才激励机制,满足市场发展对高素质人才的需求,提高公立医院的市场竞争力。鉴于此,文章选择公立医院为背景进行研究分析,分析人力资源管理中人才激励机制的作用,总结公立医院实施人才激励机制存在的问题,结合实际情况提出完善公立医院人才激励机制的措施,促进公立医院的健康发展。
期刊
频繁图模式挖掘是数据挖掘中的研究热点,频繁子图挖掘是频繁图模式挖掘的新兴研究方向,在社交网络中发现频繁子图对于理解社会互动、研究疾病的传播有重要的作用,然而在挖掘及发布时又会带来隐私泄露的风险。因此,针对静态场景及动态场景的频繁子图挖掘的隐私问题,提出了以下两个算法:(1)针对静态场景,本文提出了一种更加安全有效的满足差分隐私的深度优先搜索频繁子图挖掘算法DP-g Span。传统方法主要是基于差分
学位
本论文运用媒介经营管理理论与方法,以达拉特旗官办大众媒介为研究对象,对其进行了系统地研究。达拉特旗媒介自1950年在政府所在地展旦召建立广播收音站为开端至此已有72年的发展历史。在不同的历史发展时期,达拉特旗按照党中央关于媒介事业发展的决策部署与新闻宣传思想工作的要求积极建设旗县基层媒介事业,建设起现代化媒介机构,优化和改进经营管理体制,以更好地宣传和服务达拉特旗社会经济、政治、文化的发展。在今天
学位
专利作为知识产权的重要载体,在科技创新中发挥着极其重要的作用。一篇专利的价值实现,能在经济、法律和科技等方面带给专利权人巨大收益。因此如何实现专利的价值,一直是业内外人士所共同思考的问题。为此,我们将专利的价值实现分成了两个方面:专利估值和专利转化。其中专利估值帮助我们筛选和培育高价值专利,而专利转化则帮助我们完成高价值专利的转化。目前,一些自动化的专利价值实现模型从专利估值或专利价值转化的角度进
学位
基于车联网行业以及通信技术的发展,目前涌现了大批人工智能相关的智能应用,如自动驾驶、语音交互、路况预测等,大大提高了人们的驾驶体验,优化了道路的驾驶环境,但这类应用的特点是对计算资源和存储资源要求很高。传统的云计算(Cloud Computing)范式能够通过网络为移动设备提供算力的扩展,但由于车辆与云计算中心通常距离较远,通信延迟较高,计算任务的延迟要求往往无法得到满足。因此出现了车辆边缘计算(
学位
目前,事业单位思想政治工作虽然取得了一定成效,但随着时代的进步与社会的发展,事业单位需要加快思想政治工作改革与创新步伐,改善内部结构,注重思想政治工作的改革与创新,使事业单位发展符合时代需求。在新时代,事业单位需要进一步增强对思想政治工作的引导,分析不同时期存在的问题,并提出相应的解决措施,助推事业单位高质量发展。
期刊
近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知
学位