论文部分内容阅读
目前蒙古文信息标准化体系正在构建,而蒙古文的标准符合性检测工具仅仅只有两个,其一系统采用的是提取印刷体白体蒙古文的特征并对其进行相似度的计算,通过人工设定一个固定阈值来判断被测字样与国家标准字样是否一致;其二系统主要是以人工鉴别的方法来判断给定字样与国家标准字样是否一样。上述这两种检测系统各有利弊,但都在不同程度上填补了蒙古文标准符合性检测工具的空白。由于它们在实际应用中的效率并不高,而且都难以推动已发布的蒙古文信息技术标准的实施。所以为了解决上述这种问题,本文通过对蒙古文的标准符合性检测进行了相关的调研后,实现了基于深度学习的蒙古文标准符合性检测系统,为蒙古文的信息标准化建设做出了一点贡献。本文的主要研究内容包含以下几点:(1)构建了基于国家标准的传统蒙古文编码符合性检测的数据集。先将待测的编码序列存储在txt文件中,进行不同字体的切换,同时人工截取相应区域的图片,将图片通过OCR技术把蒙古文单词切分出来,再将得到的目标图片逆时针旋转90°并进行保存,经过上述操作后再通过人工校的方式把符合国家标准的字符图像存放入训练集中。由于已出版的字库文件很少,所以构建出的数据集是一个小型数据集,不满足深度学习进行分类的条件,为此选择对数据集进行相应的数据增强。本文采用了深度学习框架Keras中的ImageDataGenerator类进行样本的扩充。训练集由数据增强后的数据样本构成,使用了12个已发布的蒙古文白体字库,然后从训练集中按照0.25的比例随机地划分出来验证集,用于共同训练分类模型。测试集则是选用市场占有量比较大的三种产品的白体字库的字型。(2)由于传统蒙古文的单词图像在进行字元切分的时候难度比较大和一些特征提取不便的问题,本文选用了在图像分类领域大放异彩的卷积神经网络模型作为分类模型。实验的基础模型选用LeNet-5模型,对比模型则是选用改进基于Lenet-5的卷积神经网络模型和AlexNet模型。在对比实验中,通过改变输入图像的尺寸大小和训练次数等影响因素来观察基础模型和对比模型的分类性能,最终选取了在实验中分类效果更优的AlexNet模型为蒙古文标准符合性检测的模型,该模型在蒙古文编码字符集测试集上的准确度为98.72%,在蒙古文转换规则测试集上的准确度为98.48%,在蒙古文资源测试集上的准确度为100%。本文在Windows系统下通过PyQT5实现了基于深度学习的蒙古文标准符合性检测系统,其实验结果达到了比较好的效果,能够满足实际的应用。