论文部分内容阅读
随着数字化技术的发展,越来越多的蒙古文古籍被转成数字图像,以便长久保存。本文致力于研究蒙古文古籍图像检索技术,希望通过互联网为中外学者提供一种查阅蒙古文古籍文献的途径,从而提高蒙古文古籍的利用效率,这对传承和发展蒙古族文化具有重要意义。然而,蒙古文古籍因年代久远,存在大量纸张褪色、笔迹模糊等现象,导致扫描图像噪声很多、图像质量较差,而且单词书写变形也较大。上述这些困难给本文的研究工作带来许多挑战。本文围绕着这些难点在Word Spotting技术框架下,以具有代表性的蒙古文《甘珠尔经》为对象,对蒙古文古籍图像检索技术展开了一系列研究,主要内容如下:(1)针对《甘珠尔经》中单词书写变形大的特点,从单词图像的每行、每列中分别提取能反映书写顺序的四种轮廓特征,形成长度与单词图像高度相同的四个“行”特征向量,以及长度与单词图像宽度相同的四个“列”特征向量,这些特征向量用以描述每个单词图像。通过对比实验分析了每种轮廓特征的性能,确定了描述单词图像的特征组合。(2)针对大规模文档图像检索问题对检索实时性的要求,本文利用离散傅里叶变换将描述单词图像的每种轮廓特征向量都变换到频域空间。由于一定数量的低频复系数可重构原轮廓特征向量,因此每种轮廓特征向量都可表示成频域空间中一定数量的低频复系数,通过此种方式轮廓特征描述的单词图像能被转成具有固定长度的特征向量。在本文中,固定长度特征向量的每个分量都是频域空间中相应低频复系数的模。这样,单词图像间的匹配通过计算它们固定长度特征向量间欧式距离的方式加以实现,从而可满足大规模文档图像检索问题对检索实时性的要求。(3)为避免检索阶段用户从大规模单词图像集合中手动挑选查询单词“样例图像”的过程,本文提出一种查询单词图像合成方法。该方法根据古典蒙古文字形特点,确定并构建古典蒙古文字形集;依据蒙古文单词的拼写规则,可将构成某个单词的相关字形按先后顺序从上到下依次拼接起来,形成对应的单词图像。通过此方法,能够合成任意所需单词图像。实验结果证明该方法不但便于用户操作,同时还能保证合成出来的查询单词图像具有较好的检索性能。(4)根据蒙古文构词特点,本文提出一种去除构形后缀的方法,对包含构形后缀的蒙古文单词图像,可从图像上直接去除相应构形后缀,只保留剩余部分(词干)。在检索过程中,当给定某种人称或者时态下的查询单词,也先去除查询单词中的构形后缀,再以词干部分进行检索,这样可检索出该查询词在其他人称或者时态下的形式,即:同一词干缀接不同构形后缀的所有单词。实验结果表明本文提出的去除构形后缀的方法能较为有效的从包含构形后缀的单词图像中去除相应构形后缀,达到上述检索目的,并使相关检索性能有所提高。