面向自然场景文本识别的图像增强技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅猛发展和智能手机与互联网的普及,人们日常生活中产生的图像数据的数量在快速地增长。自然场景图像中的文本通常都包含着丰富的语义信息,对于图像分析、图像分类、图像内容理解等有关图像的应用具有重要的价值。因此,如何准确地识别出自然场景中的文本得到了广泛的研究关注。然而,由于自然场景中文字的不规则外形、复杂背景以及拍摄条件导致的各类图像质量退化问题,与规整的扫描文档识别相比,想要准确地识别自然场景中的文本是一个十分具有挑战性的问题。因此,本文相应提出了两种针对场景文本图像的有效图像增强技术,从文本图像超分辨率、矫正和质量改善方面,提高了自然场景图像中文字的识别准确度。本文首先探索了图像超分辨率增强在场景文字识别中的作用,提出了一种创新性的关注于文本区域的文本图像超分辨率增强模型。以条件生成对抗网络为框架,本文利用了文字/非文字的二值分割图来计算一个作用于特征的掩码图来引入空间注意力机制,同时设计了相应的损失函数用于指导网络能够更加关注文本区域的特征,提高了超分辨率重建性能以及模型的学习效率;同时本文在网络中嵌入了通道注意力模块,增强有助于任务的通道特征并抑制无关特征,提高网络的特征学习能力。通过组合这两种注意力机制,帮助网络更有重点地提取和关注有助于本任务的特征,改善文本区域的重建质量。作为文本图像超分辨率增强工作的延伸,本文进一步提出了一个基于图像增强的端到端的场景文字识别模型。本文在识别网络之前增加一个自适应的图像增强模块,其中首先通过空间变换网络对图像进行矫正,使得文字的形状趋于更有利于识别的水平布局,减轻文本可能具有的不规则形状对于后续识别的影响;随后使用层次式的U形网络来对矫正后的图像进行像素级的质量改善,使得文字区域得以更加凸显,减轻图像模糊、复杂背景、低对比度等因素对识别造成的困难。包含了增强模块的整体文字识别模型可以仅依靠文本序列标签作为监督数据进行端到端训练,不需要引入额外的监督信息。本文在多个公开场景文本识别数据集上,对所提出方法的有效性进行了深入的实验验证。实验结果表明,与现有方法相比,本文提出的关注于文本区域的文本图像超分辨率增强方法和基于图像增强的场景文字识别方法,相对于已有方法均获得了更好的性能,从而验证了本文方法的有效性。
其他文献
原发性肝癌是我国最常见的恶性肿瘤之一。到目前为止,手术切除是公认的疗效最好的肝癌治疗手段,随着医疗技术的发展,肝癌切除术后病死率在下降,但并发症的发生率仍然较高。术
会议
目的了解应城地区产碱假单胞菌的分布及药敏情况,以利于临床合理选用抗生素。方法用麦康凯琼脂分离细菌,采用恒星全自动HX-21A细菌分析仪进行生化分析及药敏实验。结论广谱抗
清人李兆洛在《清朝藩部要略稿本》序言中概述了清初诸帝抚定蒙古各部的情况,其序云: 太祖高皇帝抚有科尔沁、扎赉特,杜尔伯特、郭尔罗斯。
会议
越来越多的人尝试从海量数据中挖掘出隐藏的、有价值的信息,但是股票市场受多种因素影响,因此股价变化无常,呈现出非线性、非平稳的走势。如何准确预测股价走势、股价波动范
页岩气藏CO2压裂可以实现储层增产、提高页岩气采收率以及CO2埋存三重目标,具有广阔的应用前景。CO2压裂过程中,井筒内温度和压力的变化会直接影响CO2的携砂能力和造缝性能,
介绍了世界铁路在高速、提速、重载、信息化、安全、磁悬浮等技术领域的现状与发展趋势。
采用文献分析法对我国岩羊寄生虫的相关研究进行总结,发现岩羊可感染的寄生虫共42种。其中,线形动物门有尾感器纲的圆线目线虫共有16种,无尾感器纲的毛尾目的线虫共有2种,共1
信息优势是通过采集、控制、利用和保护战场信息,以优化决策并取得最大战果的一种作战优势。美国空军的信息优势飞行计划遵循美国空军战略主计划,将战略主计划的目标转化为切
我国社会主义市场经济体制不断完善,建筑行业工程项目招投标得到进一步推广,并且随着行业快速发展,建设工程招投标竞争日趋激烈。当前,我国建设工程招投标过程中,招标方与投
太赫兹波具有低能量、相干性、高穿透性、瞬态性、“指纹谱”性等特点同时CT成像可以为我们提供材料样品内部结构的具体信息,太赫兹时域光谱技术(Terahertz Time Domain Spectroscopy,THz-TDS)与光谱层析成像技术在材料样品检测方面有很好的发展潜力以及应用前景。太赫兹时域光谱成像技术不仅能够辨别样品的形状,而且由于太赫兹波的指纹谱特性,可以通过样品不同位置的光谱信息来进