蒙古文古籍图像检索技术研究

被引量 : 14次 | 上传用户：gbcying

【摘要】

：

随着数字化技术的发展,越来越多的蒙古文古籍被转成数字图像,以便长久保存。本文致力于研究蒙古文古籍图像检索技术,希望通过互联网为中外学者提供一种查阅蒙古文古籍文献的

【作者】

：

魏宏喜

【发表日期】

：

2012年01期

【关键词】

：

蒙古文古籍关键词定位轮廓特征固定长度表示查询图像合成构形后缀

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数字化技术的发展,越来越多的蒙古文古籍被转成数字图像,以便长久保存。本文致力于研究蒙古文古籍图像检索技术,希望通过互联网为中外学者提供一种查阅蒙古文古籍文献的途径,从而提高蒙古文古籍的利用效率,这对传承和发展蒙古族文化具有重要意义。然而,蒙古文古籍因年代久远,存在大量纸张褪色、笔迹模糊等现象,导致扫描图像噪声很多、图像质量较差,而且单词书写变形也较大。上述这些困难给本文的研究工作带来许多挑战。本文围绕着这些难点在Word Spotting技术框架下,以具有代表性的蒙古文《甘珠尔经》为对象,对蒙古文古籍图像检索技术展开了一系列研究,主要内容如下：(1)针对《甘珠尔经》中单词书写变形大的特点,从单词图像的每行、每列中分别提取能反映书写顺序的四种轮廓特征,形成长度与单词图像高度相同的四个“行”特征向量,以及长度与单词图像宽度相同的四个“列”特征向量,这些特征向量用以描述每个单词图像。通过对比实验分析了每种轮廓特征的性能,确定了描述单词图像的特征组合。(2)针对大规模文档图像检索问题对检索实时性的要求,本文利用离散傅里叶变换将描述单词图像的每种轮廓特征向量都变换到频域空间。由于一定数量的低频复系数可重构原轮廓特征向量,因此每种轮廓特征向量都可表示成频域空间中一定数量的低频复系数,通过此种方式轮廓特征描述的单词图像能被转成具有固定长度的特征向量。在本文中,固定长度特征向量的每个分量都是频域空间中相应低频复系数的模。这样,单词图像间的匹配通过计算它们固定长度特征向量间欧式距离的方式加以实现,从而可满足大规模文档图像检索问题对检索实时性的要求。(3)为避免检索阶段用户从大规模单词图像集合中手动挑选查询单词“样例图像”的过程,本文提出一种查询单词图像合成方法。该方法根据古典蒙古文字形特点,确定并构建古典蒙古文字形集；依据蒙古文单词的拼写规则,可将构成某个单词的相关字形按先后顺序从上到下依次拼接起来,形成对应的单词图像。通过此方法,能够合成任意所需单词图像。实验结果证明该方法不但便于用户操作,同时还能保证合成出来的查询单词图像具有较好的检索性能。(4)根据蒙古文构词特点,本文提出一种去除构形后缀的方法,对包含构形后缀的蒙古文单词图像,可从图像上直接去除相应构形后缀,只保留剩余部分(词干)。在检索过程中,当给定某种人称或者时态下的查询单词,也先去除查询单词中的构形后缀,再以词干部分进行检索,这样可检索出该查询词在其他人称或者时态下的形式,即：同一词干缀接不同构形后缀的所有单词。实验结果表明本文提出的去除构形后缀的方法能较为有效的从包含构形后缀的单词图像中去除相应构形后缀,达到上述检索目的,并使相关检索性能有所提高。

其他文献

美国纽约SVA教师教育项目概况及启示

纽约市教育部门自1984年开展了替代性职业辅助项目(后改名践行学徒制项目,简称SVA),旨在把部分优秀职业高中的毕业生培养成为职教教师。该项目包括教师教育课程、企业实践和

期刊

CTE教育SVA项目师资培养启示

记忆与影像——从古希腊到阿甘本的生命-影像哲学

什么是记忆？我们怎么才能获得记忆？这是困扰哲学史的一个关键性问题。在古希腊,人类感到用自己苍白的有限性无法触碰到业已消失的过去,他们只能依附于神秘性仪式的力量,借助被

期刊

阿甘本记忆影像宁芙

在培养英语交际能力的教学活动中扬功能意念法之长

功能意念法是一种高层次的、用以指导具体的外语教学方法和技巧的路子.本文从该教学法的基本精神、主要特点出发,探讨了该法在培养学生英语交际能力的教学活动中所体现出来的

期刊

功能意念交际能力教学法

肝病患者血浆AT-Ⅲ活性检测及意义

目的探讨抗凝酶Ⅲ(AT-Ⅲ)活性在肝脏疾病患者中的变化及临床意义.方法用发色底物法测定212例肝病患者和40例健康志愿者血浆中的AT-Ⅲ活性.结果不同类型的肝病患者血浆AT-Ⅲ活

期刊

抗凝血酶Ⅲ肝病发色底物法

电能计量自动化系统在现今电力营销中的应用

在现代电力营销发展的过程中,电能计量自动化系统被广泛应用于其中,不但提升了电能应用的合理性,同时,也为电网运行安全提供了保障。简要探讨了电能计量自动化系统在电力营销

期刊

电力系统电能计量自动化系统电力营销电网运行安全

机载激光雷达(LiDAR)技术及其应用

机载LiDAR技术是一种应用越来越广泛的新型测量系统，能够快速地获取高精度三维数据。过去十年，机载LiDAR技术作为精确、快速的地球表面三维测量方法已得到广泛认同。本文介绍了

期刊

LiDARGPSINSDEMDSM

ERM案例分析:一起不该发生的油污染事故

以一起油污染事故为例,从失误链、技术层面、情景意识和交流沟通等方面进行分析,提出如何加强团队合作和沟通交流,防止类似事故再次发生。

期刊

油污染溢油机舱资源

基于ARM的通信监控系统设计

随着现代工业的发展，对通信监控系统的性能要求很高，越来越向着高性能、低功耗、低成本的方向发展，同时要求有友好的人机交互界面，这对通信监控系统的软硬件设计都提出了很高的要

学位

油井通信监控ARMWindows CE数据采集

主体论视角下《诗经》两个英译本的对比研究

纵观中西翻译史,翻译研究的重点集中在原作者和源文本上,而译者往往被置于一个边缘化的地位。在翻译过程中,译者被要求忠实于原文和原作者,以至于掩盖了译者的主体性,看不见

学位

译者主体性《诗经》英译本译者

试论政府在发展多层次职业教育中的作用

从我国高职教育发展面临的生源危机入手,提出要发展多层次职业教育。在此基础上结合我国的具体国情,从政府角度分析发展多层次职业教育面临的问题及其形成的原因,并对我国政

期刊

职业教育多层次政府政策

蒙古文古籍图像检索技术研究

与本文相关的学术论文