场景文本检测后处理研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：zanyunfeng

【摘要】

：

【作者】

：

邱小刚

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2021年01期

【关键词】

：

文本检测后处理深度学习预测框校正

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字是信息的载体,在生活中发挥着重要的作用。近年来,随着人工智能的发展,人们越来越希望机器能够自动地识别文本图像中文字的语义信息,而想要对文本图像的文字进行识别,必须完成对图像中的文本进行精确定位,也就是完成文本检测,得到文本图像中文本的位置信息,于是文本检测逐渐成为计算机视觉领域的研究热点。一般来说,文本检测方法主要分为基于传统特征的文本检测方法与基于深度学习的文本检测方法。基于传统特征的方法使用手工设计的特征对所获得的候选区域进行验证,并最终获得预测框坐标。随着人工神经网络以及深度学习技术的兴起,基于深度学习的文本检测方法往往可以取得更优秀的检测结果。因此,基于深度学习的文本检测方法逐渐成为主流的文本检测方法,而基于传统特征的文本检测方法逐渐淡出人们的视野。基于深度学习的文本检测方法一般分为两个步骤:通过检测模型得到候选框,对得到的候选框进行后处理。而后处理通常采用非极大值抑制或者预测框合并连接等。目前基于深度学习的文本检测方法往往可以取得良好的检测结果,然而由于文本场景的多样性,以及图像本身的质量,造成当前的众多文本检测方法仍然存在字符误认,检测偏离等问题。字符误认就是将一些无用的非文本信息错误的认为是文本而检测出来,从而得到冗余的预测框,例如:标点符号,复杂场景下的一些图案等,检测偏离就是最终得到的预测框坐标与真实标签差距较大,单个文本容易经过检测后得到多个预测框,使文本不能完全被文本框框住。因此,为了解决以上两个问题,本文从后处理的角度着手,分别提出了针对字符误认和检测偏离的文本检测后处理方法。具体来说,本文的主要贡献包括以下两个方面:（1）针对文本检测领域经常遇到的字符误认问题,本文从文本检测后处理的角度提出了一种不标准框去除算法,以提高文本检测的准确率。一般情况下我们认为在同一个文本图像当中,字符与字符的大小应该是大致相同的。不标准框去除算法地设计主要就是依据这个原理。该算法主要是通过给定的预测框面积阈值判断每一个预测框是否属于标准框,若满足条件,即预测框面积小于最大面积阈值同时大于最小面积阈值,则判断此预测框属于标准框,反之不属于则剔除该预测框。最后剩下的就是更新后的预测框坐标集合,也就是经过处理后的检测结果。该方法可以在文本检测速度轻微下降的基础上提高文本检测的准确率。通过规范彝文、Chinese2k和English2k三个数据集上的实验结果对比分析,验证了本文方法对文本检测性能提升的有效性。（2）针对文本检测中的检测偏离问题,本文提出了一种针对检测偏离的文本检测后处理方法,以提高文本检测的性能。该方法主要分为三个模块,首先是背景去除模块,通过像素阈值对背景信息和文本信息进行分离,由于不同的文本检测场景需要不同的像素阈值,因此为了适应不同的检测场景,我们提出了自适应像素阈值算法,该算法可以通过预测框提取的图像信息计算出预测框的文本像素阈值。然后是候选框扩张模块,通过判断预测框边界是否存在文本像素从而将预测框向四周扩张。最后是重合框去除模块,通过算法将最后得到检测结果中完全重合和不完全重合的预测框去除,此时得到的就是经过本文方法处理后的检测结果。本文方法可以在提高文本检测的准确率、召回率、F1值的同时仍然保持较高的检测速度。最后我们在规范彝文、Chinese2k、English2k、ICDAR 2013、ICDAR 2015以及ICDAR2017（CTW-12k）等六个数据集上,对本文方法的泛化性、时间复杂度等通过实验进行了验证,并与LSAE、EAST、CTPN、TextBoxes、SegLink、TextBoxes++以及CRAFT等文本检测模型进行了对比,结果表明本文的方法能够提高文本检测的性能。综上,本文在当前文本检测方法的基础上,提出了两个后处理方法,解决了文本检测经常遇到的字符误认和检测偏离问题,为文本检测领域作出了一定的贡献。同时,通过大量的实验证明了本文的方法能够有效提升文本检测的性能。

其他文献

基于深度学习和多特征融合的新闻文本分类方法研究

学位

立德树人理念下定边实验中学体育融合德育教学研究

学位

云南省腾冲市第一中学高中2016级体质健康现状分析

学位

呼和浩特市商业银行政府监管问题研究

学位

科林伍德艺术想象研究

学位

现行人教版七年级《道德与法治》教科书插图运用研究

学位

细胞壁非纤维素多糖组成对甜菜渣纤维素可利用性的影响

生物质能源的发展有效缓解了化石能源枯竭与环境污染等问题。纤维素乙醇是一种新型生物质能源,可用以替代传统化石能源。甜菜渣具有产量大、木质素含量低、易于收集等优点,是生产纤维素乙醇的理想原材料。实验室前期建立了基于不同温度的甜菜渣氨水预处理技术,提高了纤维素酶解效率。但是氨水预处理对于甜菜渣细胞壁多糖组成,及其对酶解与发酵效率的影响仍不明确。本论文基于酶联吸附免疫的手段建立了细胞壁多糖组成及含量的分析

学位

氨水预处理糖组学甜菜渣漆酶乙醇

黑格尔“英雄时代”的概念与其美学思想关系研究

学位

羽毛球课程开发及实践对体育中考成绩影响的实验研究

学位

重庆市中心城区行道树绿化景观评价及营造策略研究

行道树绿化景观是城市园林绿化的重要组成部分,也是城市的形象展示窗口。目前随着社会经济的快速发展,对城市生态环境建设有了更高的要求。然而当前行道树景观营造,缺乏相关理论的指导,现状景观存在树种重复化、配置方式单一化、管理养护强度不够等问题。目前,针对于重庆地区行道树绿化景观的相关研究甚少,且作为山地城市,重庆市行道树绿化存在特殊性,鉴于此,本研究针对重庆市中心城区开展行道树绿化相关研究。本文通过对城

学位

行道树绿化景观树种综合评价景观评价景观营造优化策略

场景文本检测后处理研究

其他学术论文