论文部分内容阅读
女书是世界上最具性别意识的文字,有着重要的非物质文化遗产保护价值。到目前为止,女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得更加困难,女书文化濒临消失。针对此问题,本文将脱机手写文字识别技术应用到女书文献的信息化上,为保护和发扬女书这组中华民族珍贵的文明基因尽自己的一份力量。本文在对目前脱机手写文字识别算法进行详细分析的基础上,针对女书自身的特点提出了一种脱机手写女书文字识别方案。从方案的设计着手,详细分析了脱机手写女书文字识别的工作流程,各部分的功能和常用算法,将周边方向贡献度特征提取算法应用到女书文字的特征提取上,并提出了一种改进的笔画密度特征提取算法和一种三级距离分类识别算法;设计并实现了一个实用的女书识别系统。本文的主要工作和特色如下:1)针对女书文字的样本,采用平滑算法和二值化算法去除样本图像中的方格噪声和背景,并根据女书样本中文字分布的特性,采用行合并的切分算法切分女书文字。最后将切分出的女书文字归一化成统一规格。2)分析了两种笔画密度特征提取算法的特点以及它们应用在女书文字上的不足,将周边方向贡献度特征提取算法应用到女书文字的特征提取上,并根据女书文字倾斜的特性,提出了一种改进的笔画密度特征提取算法。3)对现有多级距离分类器进行了分析,针对欧式距离在识别过程中的不足,设计了一种三级距离分类器。分类器的一级分类采用Manhattan距离,二级分类和三级分类采用误差均衡距离,该分类器具有Manhattan距离分类速度快和误差均衡距离分类能够使女书文字特征中稳定的部分得到突出,不稳定的部分被抑制的优点。4)采用本文提出的改进笔画密度特征提取方法、三级距离分类器等算法,设计并实现了一个脱机手写女书文字识别系统。用系统进行了仿真实验,对实验结果进行分析和比较。