自然场景图像中文本检测技术

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 1次 | 上传用户:mfl110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器视觉的发展,自然场景下文本信息的获取成为其中一个备受关注的研究方向。因为文本信息能准确地传达出场景内容,帮助对自然场景的理解。然而自然场景的复杂性与文本的多样性给文本检测带来极大的困难。本文从自然场景文本检测的技术难点出发,针对任意形状的灵活文本和多尺度文本的相关检测算法进行深入研究,通过结合最新的深度学习理论研究和网络模型定点化加速技术,提出两种适用于不同应用场景的文本目标检测模型。本文研究工作的具体内容如下:(1)自然场景中文本区域的大小差异极大,直接使用某一特征层对所有尺度进行预测,其性能一般较差。本文针对多尺度目标检测对多层级特征图的需要,通过在特征提取网络后增加多层降采样卷积层,使用U形对称结构在上采样卷积层中直接拼接或者逐点累加前面的卷积层,从而获得多尺度的特征信息。其次,通过减小模型中预训练网络模型与再训练输入图像尺度之间的分布差异,尽力使预训练数据中目标的尺寸接近被检测文本的大小,从而在不改变网络结构的情况下,提高文本检测模型的性能。(2)本文提出了一种基于Mask R-CNN[41]算法的高性能文本检测模型,通过重新设计候选框生成网络结构和提出自适应尺度测试机制,进一步提升多尺度、多语言、灵活文本的检测性能。受Mask R-CNN算法的启发,检测器通过生成自然场景图像的实例分割结果来定位文本区域,从而检测任意形状的文本对象。为了解决实例分割算法在区域候选框生成网络中缺乏全局语义信息和不准确的分类得分导致小文本漏检的问题,本文提出了候选框生成网络中的Inception Region Proposal Networks[87](Inception RPN)模块结构和自适应尺度测试机制。对于Inception RPN模块,提出通过不同卷积核大小的多个分支来处理不同宽高比和尺度的文本,融合卷积特征图的多尺度信息,进一步获得更高质量的文本候选框特征,从而提高检测模型的召回性能。这一模块有效的避免了自下而上生成文本候选框过程中的错误累积,只需要数百个文本候选框即可实现较高召回率。对于自适应尺度测试机制,是由于场景文字检测与常见物体检测不同,自然文本通常在大小、尺度、方向上变化极大,并拥有较大的宽高比。为了解决这一问题,算法通过自适应地将测试图像拉伸到与主干网络训练图像一致的大小以获得最大响应。从而可以在不降低大尺度文本检测性能的基础上,进一步提高小尺度文本检测的检测性能。本章模型在公开基准数据集上进行验证,在ICDAR 2015测试数据集上实现了0.90的F1精度,在ICDAR 2017 MLT测试数据集上实现了0.76的F1精度,高于之前提出的最优结果。(3)本文提出了一种基于全卷积网络的轻量场景文本检测算法,用于满足便携设备对于文本检测算法计算效率的需要。受Fully Convolutional Networks[44]算法的启发,为解决大多数高精度文本检测算法无法移植于计算力较差的便携设备中的问题,本文通过对全卷积神经网络的改进,简化了传统anchor-baesd网络中需要进行预设框生成的过程,直接在单一网络上进行文本检测定位。具体的,本文通过引入U形结构对特征提取网络生成的特征进行多尺度融合,解决了特征图在计算过程中不断下采样导致的信息损失,提高了整个模型在多尺度文本区域检测上的鲁棒性。其次,本文通过对位置加权损失函数的改进和文本标注的预处理,在不过多提高计算量的情况下,在一定程度上,提高文本检测精度。通过在公开基准数据集上进行验证,本文所提出的算法在ICDAR 2013测试数据集上实现了0.93的F1精度。进一步的,通过将训练好的浮点数模型进行定点化,并使用OpenCV调用模型进行前向推理,大大提高了模型的计算性能,为未来工业化移植奠定了基础。
其他文献
随着无人机各项技术的飞速发展,无人的能力提升、用途扩大、复杂度增加,综合化系统和综合化技术在无人机设计中广泛应用,传统设计方法已难以满足现在和未来无人机系统设计,为
股权融资在上市企业进行资本运作中起重要的作用。通过数据包络法,把甘肃省23家上市公司作为研究对象,对甘肃省的上市公司股权融资效率进行综合评价,得出结论:甘肃省的上市公
全面抗战爆发后,随着国民政府迁都重庆,中国东、中部大片国土相继沦陷,自流井作为大后方主要的井盐基地之一,其战略地位迅速突显,逐渐为日军所重视,并成为其战略轰炸的重要目
近几年来,我国政府和社会资本合作(PPP)模式推进深入、发展迅猛,但是其快速发展过程中也存在一些不规范行为。本文作者通过阅读国内关于 PPP 融资的相关文献,综合整理了 PPP
研究目的:本研究通过建立哮喘大鼠激素干预模型,运用临床确有疗效的加减乌梅丸颗粒作为治疗药物,评估该药物对模型大鼠TGF-β1/Smad信号通路的影响以及对气道重塑的阻抑作用,
目标检测是计算机视觉领域的一个重要研究方向,也是其它复杂视觉任务的基础。最近几年,随着深度学习的快速发展,目标检测也取得了巨大的突破。目前,目标检测已经广泛应用于多
在认识海洋、经略海洋和建设海洋强国的重大国家战略下,海床基观测平台技术迅速发展,但是数据回收技术远远落后于应用需求。水声通信技术作为目前水下远距离信息传输的唯一有
"互联网+"技术的迅速房展,对社会各方面产生巨大影响,高校计算机实验教学中心如何抓住"互联网+"技术的发展契机,充分发挥互联网在软硬件资源配置中的优化集成作用,将互联网不受时间
繁殖障碍性疾病对奶牛生产造成巨大损失,尽早诊断妊娠状况能够有效避免奶牛生产过程中的无效饲养、繁殖周期延长等问题。因此,探索奶牛正常妊娠相关的分子标记物对进一步理解
将信息系统的评价指标体系进行分层,得到参与评价的三维指标矩阵.再将多目标决策中的逼近理想解法应用到以矩阵为元素的空间中,按照与理想解和负理想解的相对接近度去对信息