论文部分内容阅读
随着人们对高质量教育需求的增长以及人工智能技术的发展,个性化教育成为一个非常具有前景的方向,线上与线下教育的有机结合是个性化教育中非常重要的一个环节。线下教育过程中通常会产生大量的纸质试卷,手机拍摄试卷图像是非常便捷的一种方式,因此将试卷图像中有效信息抽取出来并将其转换为文本是个性化教育过程中非常重要的一个场景。文本检测是文本识别的基础,其目标是将图像中文本区域标注出来,传统图像处理和深度学习在文本检测领域均取得了一些成果,但也存在不同的问题。目前文本检测技术大致分为两个研究方向:自底向上方向和自顶向下方向。自底向上的方法一般采用传统图像处理方法,通过人工设计特征检测字符和文本框,由于缺少语义信息容易将部分背景检测为文本。自顶向下的方法通常使用深度学习方法训练端到端的检测模型,在训练过程中需要大量的标注数据,但因为试卷中文本框密集,对试卷进行大量文本标注在试卷文本检测场景中是昂贵且不可行的。虽然目前已经有很多文本检测算法,但是针对试卷文本检测场景的并不多。试卷文本检测可以视为文本检测的一个特殊场景,是一项具有挑战性的任务,其难点在于需要从不同大小、图像质量参差不齐、文字图表混合、手写字符打印字符混合的试卷图像中检测文本,试卷图像文本框较多导致数据标注难度大。为了解决上述问题,本文提出了基于判别器的试卷文本检测算法(TDCD)和基于DQN的试卷文本框微调算法(TDMA)。本文的工作内容和创新包括以下四方面:(1)为了解决试卷文本检测中存在图像质量参差不齐、文字图表混合、标注成本昂贵等问题,本文提出了TDCD算法。首先对试卷图像预处理得到连通区域外接矩形,然后基于传统图像处理方法和卷积神经网络设计了字符判别器(CDM)用于指导连通区域外接矩形合并,最后通过文本线构造法生成文本框。TDCD算法无需大量的试卷文本框标注数据和人工设计特征便可获得较好的检测效果。(2)为了进一步提高试卷文本框的检测精度,本文提出了TDMA算法。首先设计了试卷文本框微调的各种动作,然后借鉴R-FCN中Ps-Ro I Pooling结构设计了双分支融合估值网络,最后通过?-greedy策略对动作进行选择。本文实现并验证了通过强化学习微调试卷文本框的可行性。TDMA算法适用于提高任何试卷文本检测模型的检测精度也为其他矩形目标检测结果微调提供了思路。(3)目前尚未有针对试卷文本检测的开源数据集,在评测试卷文本检测效果时,本文收集并标注了试卷文本检测数据集EPDB。在训练及测试字符判别器时,本文制作了字符判别数据集CDB。为了减轻数据标注压力,CDB的训练集与测试集数据分布不同,设计了一种数据分布自纠正策略,通过不断迭代使字符判别训练数据与测试数据趋于一致。(4)在EPDB和CDB上的大量实验表明:本文提出的TDCD可以有效用于试卷文本检测,F-measure达到66.3%,在试卷文本检测场景优于其他算法;TDMA可以进一步提高文本检测效果,其中TDCD检测结果的F-measure可提升1.2%;数据分布自纠正策略可以在降低数据标注量的情况下取得有效的判别效果,其中AUC可提升21.8%。