基于深度学习的场景文本检测与识别方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:daviid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的光学字符识别方法相对成熟并且已经应用到文档扫描等领域。自然场景文本图像通常包含复杂的背景、多样的字体、不可控制的光照以及视角变换、扭曲等不利于传统文本检测和识别的因素,导致传统方法在处理自然场景文本时性能大幅下降,自然场景文本的检测与识别还具有一定的提升空间。该文围绕基于深度学习的场景文本检测与识别中存在的问题展开研究和分析,具体工作如下:为了实现对任意形状的场景文本精确检测,提出了基于实例分割方法的复杂场景文本检测网络。使用为实例分割专门设计的骨干网络Mi T提取特征,改进了特征融合部分的特征金字塔网络,采用多层感知机的方式进行特征融合并获得像素级别的分割结果。主要解决了场景文本检测中弯曲的文本和任意旋转角度的文本检测效果差的问题。为了提取更丰富的文本语义信息以改善场景文本识别的性能,提出了融合语义信息的场景文本识别方法。为了更好地提取图像特征,采用Involution与卷积结合的方式设计了特征提取网络Red Net47并使用Transformer进行解码。采用Reformer改进了语言模型使其变得更为轻量,并用改进的语言模型对场景文本检测结果进行修正。主要解决了由于光照、模糊等原因造成的单个字符识别错误对整个单词的识别结果产生影响的问题。为了解决场景文本检测与识别需要独立进行的问题,提出了端到端的场景文本检测与识别网络。文本检测部分改进了轻量化的特征提取网络以及基于Transformer的金字塔特征融合网络。文本识别部分采用Masked Ro I将检测与识别部分进行连接,并使识别部分的语言模型迭代地优化识别结果。提出的网络可以端到端地进行检测和识别。
其他文献
镁锂合金被称为“超轻合金”,将镁锂合金应用于航空航天,可以直接削减航天器的燃料燃烧以及运输成本。所以,本课题利用等离子体电解氧化(PEO)技术在LA103Z镁锂合金表面制备高吸收率高发射率的黑色陶瓷膜层。因为镁锂合金的耐腐蚀性能较差,故本研究也将提高其耐腐蚀性能。主要研究内容如下:(1)采用硅酸盐为基础电解液,CuSO4为添加剂,制备PEO膜层。PEO膜层主要由MgO和Mg2Si O4相组成。随着
学位
近年来,绿色环境能源收集的一个新的研究方向是水蒸发驱动的纳米发电机研究。影响水蒸发驱动纳米发电机性能因素的研究及材料体系开发对于水蒸发驱动的纳米发电机研究具有重要意义。以往的关于水蒸发驱动纳米发电机的性能的影响因素研究主要集中于环境湿度、环境温度、空气流速、蒸发面积等方面。然而关于蒸发驱动纳米发电机中纳米材料排布结构对于发电性能的影响却少有报道。本文利用球状二氧化硅(Si O2)纳米颗粒和片层状双
学位
报纸
硼是重要的非金属矿产资源,在化工、轻工、医药等行业有广泛应用。探究硼矿分布规律有着十分重要的科研与经济意义,而成矿物质来源是讨论矿床成因的首要问题之一。该区域的硼矿赋存于辽吉裂谷内,区域地质构造复杂,变质变形作用十分明显,成矿地质条件优越,是我国硼矿的主要分布地区。区内主要硼矿床为翁泉沟硼矿。在前人研究基础上,深入研究成矿物质来源、成矿流体来源,进而讨论区内硼矿成因。
期刊
恶劣天气下的图像恢复是计算机视觉领域的基本问题之一,其目的是消除天气因素对图像的退化,从而生成清晰的图像。鉴于目前所广泛使用的图像恢复方法主要针对单一天气情况,本文主要针对多种恶劣天气(雨、雾和依附雨滴)条件造成图像退化,使用单一网络对图像恢复进行研究。本文的主要研究内容和创新点如下:首先,研究一种基于注意力引导多分支的单幅图像去雨去雾方法。该方法遵循多路径和多分支模式,允许多个互连分支在不同尺度
学位
报纸
混合卤素钙钛矿太阳电池光伏性能及其的卓越,理论值超过大部分光电器件,这也正是其成为最有希望的光伏电池的下一代太阳能电池的原因之一。如今钙钛矿太阳能电池(PSCs)的研究取得了巨大的进步,现在认证PCE效率可达25%以上。PCE的增长得益于众多的优化策略。研究者不断探索各种工程方法来钝化钙钛矿时吸光材料,以减少钙钛矿体相以及界面的缺陷,优化钙钛矿吸收层与其他界面的结合。(1)氯化甲胺(MACl)作为
学位
目前,基于光纤布拉格光栅的腐蚀监测传感器多应用于钢筋、油气管道这些特殊的应用场合,并且监测的参数易受到其它因素的影响。为了解决现有的基于光纤布拉格光栅的腐蚀监测传感器存在通用性差和监测参数易受其它因素影响的问题,本文根据金属腐蚀后厚度变薄这一稳定关系进行了基于光纤布拉格光栅(FBG)腐蚀监测传感器的研究。该腐蚀监测传感器具有量程和灵敏度可调、测量精度高、监测结果准确可靠的特性,同时解决了FBG对温
学位
自然场景图像中的文字具有更加精确的语义信息,准确地从场景图像中提取和识别文字能够极大地增强计算机对图像内容的理解能力。计算机对自然场景图像中的文字进行检测和识别的工作已经成为文字识别领域乃至整个计算机视觉领域中最受关注的研究热点。因此,本文基于深度学习方法,对场景图像中的文字检测和识别进行了以下研究。首先,针对场景图像中背景复杂、视觉元素繁多及准确检测待识别文字问题,提出基于深度学习和YOLOv5
学位
紫外探测器在导弹发射探测、空间和天文研究、环境监测、紫外线辐射校准和监测、光通信等领域有着广阔的应用前景,目前,在紫外光电探测器的制造中,多种宽带隙半导体材料已经被研究开发并应用于紫外光电探测器制造中。如氮化镓(Ga N)、碳化硅(Si C)、氧化锌(Zn O)、氧化镓(Ga2O3)等。与采用窄带隙Si制造的电子器件和光电器件相比,宽带隙半导体器件具有更高的抗击穿能力、更强的辐射耐受性和更大的器件
学位