论文部分内容阅读
古籍汉字结构复杂、形变频繁等特点,使得现有的图像聚类、检索理论和方法在面对古籍汉字图像时存在许多有待解决的问题。为了更好地辅助汉字专家的研究工作,本文结合汉字的结构特点,采取“先聚类后检索”的策略,设计了古籍汉字单字图像的全局与局部检索方法。在古籍汉字图像切分中,通过搜索连通区域及删除、合并处理对整页古籍汉字图像进行切分,得到单字图像。在古籍汉字图像检索中,根据古籍汉字图像的结构特点,采取“先聚类后检索”的策略;聚类阶段,在对经过预处理的字符图像进行弹性网格划分并提取方向线素特征的基础上,采用K-means算法对单字图像进行全局聚类和局部的上、下、左、右、中聚类;检索阶段,在全局检索方面,采集待检索汉字图像的全局特征后确定其所属聚类并进行类内检索;在局部检索方面,根据用户划定的检索区域以及计算所得到的对称位置区域,进行区域特征匹配获取原始聚类中心和对称聚类中心,在相应类内检索与用户划定区域特征相似的图像,通过相似度控制显示对应的检索结果图像。实验结果表明该方法较好地满足了汉字研究专家的检索需求,有效地提高了古籍汉字研究工作效率。