论文部分内容阅读
“满语”和“满文”是满族的语言和文字。清朝将满文作为法定文字推广和使用,留下了大量满文档案。这些满文档案可谓包罗万象,涉及面极为广泛,且所反映的内容多不见于汉文档案和其他文献,具有重要的历史研究价值。满文濒临灭绝的现状迫切要求加强对满文历史文档的数字化保护。随着图书馆满文数字化的日益增长的需求,研究满文光学字符识别技术变得非常重要。在以往的满文识别研究中,通常是对切割后的字符或基元进行识别。由于满文单词结构的复杂性,尚不能完全实现满文字母的正确分割,制约后续字符识别的精度,同时识别后的字符重组技术也有待解决。所以,本文提出了无分割满文单词识别方法,主要研究内容如下:1.本文提出利用多项式核函数的有向无环图支持向量机分类器,对无分割满文单词进行识别分类。分类器在10分类时达到100%,从20分类识别率开始下降,在40分类时识别率为90%,在100分类时达到78%。实验结果表明,无分割满文单词识别方法具有可行性;并且对于大类别数的无分割满文单词数据,有向无环图支持向量机的分类效果明显下降。2.为了提高在大类别数据测试集上的识别率,使用卷积神经网络对无分割满文单词进行识别分类。不同于人工设计好的浅层特征提取器,卷积神经网络能对深层特征进行提取,从而提高识别率。利用卷积神经网络对100类的无分割满文单词进行识别分类,识别率达到99.10%,比有向无环图支持向量机的识别率高出21.10%;对671类无分割满文单词进行识别分类,识别率达到97.89%。实验结果表明,卷积神经网络适用于大类别的无分割满文单词的识别分类问题。3.为了使分类器能够对任意大小的无分割满文单词图像进行分类,而无需进行大小归一化处理,利用空间金字塔池化层替换传统卷积神经网络的最大值池化层的方法来改进传统的卷积神经网络,使网络可以对任意大小的无分割满文单词图像进行训练,从而减弱归一化预处理对识别率的影响。实验结果表明,改进的卷积神经网络模型对无分割满文单词的识别率达到了98.84%,高于传统的卷积神经网络对无分割满文单词的识别率。4.在对深层神经网络的训练中,需要大量的实验数据。但是由于满文单词文本少,搜集的数据量不大,使本文的实验具有局限性,所以本文利用数据合成方法对原始满文数据进行扩充,得到适合于以上三种方法的无分割满文单词数据集。实验结果表明,利用无分割满文单词数据合成方法进行扩充的数据集适用于以上三种识别分类方法。