基于知识蒸馏的缅甸语光学字符识别方法

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:lanxuexiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition,OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战.为了解决该问题,提出了一种基于知识蒸馏的缅甸语OCR方法,构建了使用卷积神经网络(Convolutional neural networks,CNN)+循环神经网络(Recurrent neural network,RNN)框架的教师网络和学生网络,以集成学习的方式进行训练的模型架构,在训练过程中通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取.实验结果表明,在没有背景噪声图像和有背景噪声图像作为训练数据集的情况下,本文模型的性能分别优于基线2.9%和2.7%.
其他文献
遥感影像在实际土地监测中其检测精度会受到影像数据中噪声的影响.为了提升变化检测方法的精度,本文提出了一种结合多尺度特征提取和注意力机制的孪生卷积神经网络的变化检测方法.首先使用含有不同膨胀率的空洞卷积和空间注意力模块组成多尺度特征提取模块;然后将同一卷积层的特征图相减获取前后两时期影像的差异特征图,并使用通道注意力机制增强特征提取效果;最后通过全连接层输出变化检测结果.将本文方法与目前已有的一些变化检测方法在未添加噪声的原始遥感影像数据和添加噪声后的遥感影像数据上进行对比分析.结果表明:(1)支持向量机这
在SSD(Single shot multibox detector)单阶段人脸检测模型的基础上,针对复杂局部遮挡下人脸检测精确性差的问题,提出了一种基于层级注意力增进网络的多尺寸遮挡人脸检测方法.首先,在SSD基础网络的多层初始特征图上,通过引入注意力增进机制提升人脸可见区域的响应值.然后为不同增强特征层设计不同尺寸的锚框,以提高对多尺寸遮挡人脸的分层识别效果.最后在训练时将注意力损失函数、分类损失函数和回归损失函数融合为多任务损失函数,共同优化网络参数.在WIDER FACE人脸数据集和MAFA遮挡人
传统基于孪生网络的视觉跟踪方法在训练时是通过从大量视频中提取成对帧并且在线下独立进行训练而成,缺乏对模型特征的更新,并且会忽略背景信息,在背景驳杂等复杂环境下跟踪精度较低.针对上述问题,提出了一种融合注意力机制的双路径孪生网络视觉跟踪算法.该算法主要包括特征提取器部分和特征融合部分.特征提取器部分对残差网络进行改进,设计了一种双路径网络模型;通过结合残差网络对前层特征的复用性和密集连接网络对新特征的提取,将2种网络拼接后用于特征提取;同时采用膨胀卷积代替传统卷积方式,在保持一定感受视野的情况下提高了分辨率