论文部分内容阅读
女书是中华民族文化宝库的瑰宝,是世界极其重要的非物质文化遗产。由于各种原因,近年来女书处境艰难,亟待信息化保护。采用现代科学技术来数字化女书对女书的传承和发展具有重大的意义,其中女书字符分割提取是后续规范化工作和文字识别的关键步骤。本文围绕复杂背景下女书图像字符分割提取展开研究工作。根据复杂背景下女书字符图像特征,设计并实现了女书图像字符分割提取总体方案,并对女书图像字符分割提取的关键技术,字符图像分割和字符切分进行了深入研究。 在图像分割的过程中,针对复杂背景下女书字符图像和女书字符结构特点,设计并实现了一种改进的局部自适应女书字符图像分割方法。针对女书文字书写整体倾斜,其笔画只有点、竖、斜、弧四种,且以竖、斜和弧这三种笔画居多的书写特点,设计了基于CLLT的女书字符图像分割算法;依据女书字符笔画宽度字符宽度不均匀的特点,设计了基于MLLT的女书字符图像分割算法;结合LLT及ALLT局部阈值算法的基本思想,设计相应的阈值修正参数自动获取方法。最终给出了一种改进的局部自适应女书字符图像分割方法(IALLT),该算法较好适应了女书字符的特点,解决了LLT算法对笔画宽度w敏感及阈值参数需手动设置的问题,实现了局部阈值参数的自适应获取,从而进一步提高了算法的分割准确度及抗噪能力。实验结果表明,本文算法准确度较高,具有较好的适应性,对复杂背景下女书图像进行分割获得了令人满意的结果。 在字符切分过程中,本文以纵向书写字符图像为例进行研究,设计并实现了一种多策略女书字符切分方法。采用投影法对女书文本行进行粗切分,统计平均字符高度,并根据平均字符高度筛选出弱切分块;对于弱切分块中呈现字符重叠的现象,采用连通域分析法将其分离;对于弱切分块中呈现字符粘连的现象,结合字符细化图像的聚类结果获取粗切分位置,然后采用改进的滴水算法获取准确切分点,进而完成切分。实验结果表明,该方法能有效地对女书字符进行切分。