论文部分内容阅读
从自然场景图像中读取文本由于其广泛的应用而受到了计算机视觉领域、模式识别领域以及工业界的广泛关注。在如今的智能大数据时代,能够有效地对图像文本内容进行提取分析并信息智能化对于学术界的理论研究和工业界的技术驱动都具有深远意义,而图像文本检测是后续文本内容识别的先决条件,但由于场景图像因光照、拍摄角度、背景和文本多样性等诸多问题,目前还鲜有能适用于复杂场景图像文本检测的技术手段,因此,提高对复杂场景文本的定位和检测准确性和鲁棒性有着积极的研究意义和重要的应用价值。
本课题的工作内容和贡献如下:
首先,考虑到图像中不同层次的特征对于目标的类别和位置信息有着不同的凸显作用,提出一种结合残差网络(ResNet)和图像金字塔(FPN)融合图像多尺度特征的网络架构,对图像中高分辨率但语义表达能力较弱的低层次特征和抽象度更高但具有更强语义表达的高层次特征同时进行提取,并利用FPN三段连接的特殊结构对多尺度的信息进行融合,生成多层次特征图;
其次,为了匹配不同层次特征图的比例分割蒙版,提出一种基于多边形缩小算法的文本真实值标签生成算法,生成不同比例的分割区域。在损失函数中用超参数平衡原尺寸文本分割实例和缩小的文本分割实例的影响,并设计了两种损失函数,一种是基于二进制交叉熵损失函数(BCE)的损失函数,一种是基于在线难例挖掘(OHEM)和dice系数的损失函数,并通过实验分别比较了两种损失函数对于网络模型的效果;
最后,在后处理步骤中为了将从不同尺度分割蒙版进行文本实例的扩展,提出了基于分水岭的渐进式尺寸扩展算法,利用分水岭算法的“浸水”特性,依次访问较大的文本分割蒙版,以迭代标注式地对最小分割实例执行逐像素的连通区域扩充,直到得到最大的分割结果。
本研究中提出的基于多尺度特征融合和实例分割的场景图像文本检测的相关技术方案,经实验验证,对于定向文本、多语言文本和弯曲文本的检测均表现出良好的鲁棒性,在ICDAR2015、ICDAR2017-MLT、CTW-1500、Total-Text数据集上的F-Score分别为82.32%、70.88%、79.1%、78.9%。
本课题的工作内容和贡献如下:
首先,考虑到图像中不同层次的特征对于目标的类别和位置信息有着不同的凸显作用,提出一种结合残差网络(ResNet)和图像金字塔(FPN)融合图像多尺度特征的网络架构,对图像中高分辨率但语义表达能力较弱的低层次特征和抽象度更高但具有更强语义表达的高层次特征同时进行提取,并利用FPN三段连接的特殊结构对多尺度的信息进行融合,生成多层次特征图;
其次,为了匹配不同层次特征图的比例分割蒙版,提出一种基于多边形缩小算法的文本真实值标签生成算法,生成不同比例的分割区域。在损失函数中用超参数平衡原尺寸文本分割实例和缩小的文本分割实例的影响,并设计了两种损失函数,一种是基于二进制交叉熵损失函数(BCE)的损失函数,一种是基于在线难例挖掘(OHEM)和dice系数的损失函数,并通过实验分别比较了两种损失函数对于网络模型的效果;
最后,在后处理步骤中为了将从不同尺度分割蒙版进行文本实例的扩展,提出了基于分水岭的渐进式尺寸扩展算法,利用分水岭算法的“浸水”特性,依次访问较大的文本分割蒙版,以迭代标注式地对最小分割实例执行逐像素的连通区域扩充,直到得到最大的分割结果。
本研究中提出的基于多尺度特征融合和实例分割的场景图像文本检测的相关技术方案,经实验验证,对于定向文本、多语言文本和弯曲文本的检测均表现出良好的鲁棒性,在ICDAR2015、ICDAR2017-MLT、CTW-1500、Total-Text数据集上的F-Score分别为82.32%、70.88%、79.1%、78.9%。