藏文古籍识别系统的设计与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:zcznq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文古籍是世界文化宝库中的历史瑰宝,内容涉及宗教、文化、政治、经济等等,不仅是研究藏族历史和文化变迁不可多得的珍贵史料,更是中华民族这个大家庭繁荣昌盛的历史见证。岁月侵蚀加之保存不当使得藏文古籍遭受了不可逆转的损坏、退化,因此基于藏文古籍图像无法再次编辑、检索效率低以及分析挖掘难度较大等现状,亟需开发一款藏文古籍识别软件系统,利用文字识别技术将藏文古籍文档图像转换为可编辑的文本文档,不仅有助于加快藏文古籍文档数字化保护进程、为相关藏学研究者提供便利,而且对加快文化的交流和融合有着一定的促进作用。本文以木刻板乌金体藏文古籍《甘珠尔》为研究对象,在藏文古籍文档识别方面开展了一系列研究,并针对藏文古籍文档图像的特点提出了以下算法:(1)基于Lab颜色空间污渍去除的二值化算法,该算法能够消除污渍等不利因素的影响,对低质图像有较好的处理效果;(2)基于连通域形状判断的去边框算法,克服了基于连通域面积容易误判的缺点,能够更加准确的判断并去除图像中的边框区域;(3)基于基线分割的字切分算法,解决了上元音过长产生的粘连问题,进一步提高了字切分的准确性;(4)基于CNN的字丁识别算法,利用深度学习解决了多类别字符识别问题,提高了藏文古籍7240类字丁的识别率。具体实现方面,在Windows平台下开发了一款藏文古籍文档图像识别系统,主要包括图像二值化及校对、去边框及校对、行切分及校对、字切分及校对、识别及校对、样本标记及校对等基本功能,能够将藏文古籍文档图像转换成可编辑处理的文本文档。针对不同的应用需求,系统提供“简易版”和“专业版”两大入口。“简易版”专为普通用户设计,主要分为三大功能模块:(1)图像获取,提供本地及文档扫描两种图像获取方式;(2)图像处理,提供分步识别、单幅一键识别及多幅一键识别三种图像处理模式,用户可根据需要进行选择;(3)字丁样本标记,根据识别结果将字切分图像分类并按类别保存至对应类别文件夹内。“专业版”为藏文古籍研究者设计,在“简易版”的基础之上添加了算法替换和模块增加两种功能,用以满足各种情况下的科研需要。藏文古籍识别系统主框架采用MFC方式编程实现,所有功能模块通过EXE可执行文件的调用实现,模块之间没有直接联系,便于系统模块功能的修改、维护。此外,系统支持Python、Matlab、C++、MFC四种类型的EXE可执行文件,只需匹配接口函数即可调用EXE可执行文件替换相应功能算法。经过对系统整体和各功能模块的测试验证,藏文古籍识别系统各功能模块正常、运行稳定。
其他文献
文章首先阐述了会计专业人才培养类型的转变趋势,然后分析了会计专业人才培养模式新思路,包括会计专业人才培养课程体系的改革;课堂教学的改革;专业教师需提升自身专业素养。
结核病(tuberculosis)自古以来就是严重威胁人类生命安全的公共卫生难题,其是由致病性的结核分枝杆菌(Mycobacterium tuberculosis,MTB)侵入机体导致的慢性呼吸道传染性疾病,
高职院校继续教育是高职院校教育的重要组成,对高职院校的发展意义深远,然而通过分析高职院校继续教育体制和机制,不难发现诸多问题,积极采取措施,解决问题已经成为"当务之急"
目的:探讨自体脂肪移植用于面部年轻化治疗对就医者美观满意度、自信心及尊严感的影响,为面部年轻化治疗提供参考。方法:选取行自体脂肪移植以改善面部老化的40例就医者为观
机器学习利用数据或者过往的经验来提高计算机程序的性能,被看做通往人工智能的重要途径,并且在计算机视觉、数据挖掘、自然语言处理等领域受到了大量关注和广泛应用。模仿学
11月3日,豫联集团举行了年产60万吨铝精深加工高精铝项目投产典礼,标志着企业由传统铝企业成功转型成为高端化、终端化的国际高端铝合金新材料制造企业。作为俄方Vi Holding
骨龄是生物学年龄主要判定标准之一,它能准确地反应被测试者生长发育情况。但是,人工估测骨龄耗时长且结果波动大,严重依赖于放射科医生的熟练程度。因此,通过计算机视觉技术来辅助实现骨龄的自动预测是很有必要的,是医学图像领域的研究热点之一。基于传统机器学习算法的骨龄自动/半自动预测方法主要是通过分割关键区域和手动提取特征来实现骨龄评估的,但其预测准确度严重依赖于分割的精度和提取到的特征的有效性。基于深度学
炮管的轴线直线度对炮弹的发射精度和命中精度有最直接的影响,而国内的军工企业使用的检测方法普遍精度低、效率低,而且性能无法保障。在几何测量领域中,高精度空间直线度一
现行的新教材不仅知识性强,且贴近生活,按单元自成体系。每单元有对话,有阅读,有综合本单元的重点语法知识和词汇实践练习,所以导入新课要从教材内容和教材结构两个方面入手,
目前,应试教育的压力使素质教育空间被不断压缩与侵蚀,而随着创客教育理念的不断发展,中小学校的创客教育随之迅速发展,创客教育立足于培养学生的创新能力和实践能力,有利于