论文部分内容阅读
古籍图像,作为一种以古文字形态存在的媒介,记录了人类过去对社会与自然思考的精髓。因此,深入研究古籍图像处理工作,有助于传统文化的传承与发扬,具有理论的研究与应用价值。为了满足归一化后的古籍文字图像处理中对标注样本的需求,本文主要以聚类的方法结合人工获取图像标注样本,并基于该标注样本数据使用分类器实现了古籍图像标注。在此过程中,提出了基于信息熵改进的古籍图像聚类算法、关联分析优化古籍图像聚类算法与古籍图像标注技术应用系统设计方案,具体的研究工作包括:(1)针对古籍图像处理领域需要使用大量标注样本数据的现状,本文探索了基于密度峰值聚类的古籍文字图像的分类方法,研究与设计了一种密度峰值聚类的度量函数,并提出一种基于信息熵改进的古籍图像聚类分析方法。该方法通过利用距离阈值枚举进行聚类,求解聚类结果的信息熵,分析信息熵的衰减推导类阈值,从而完成对图像的聚类工作。通过改进的度量函数求解图像间相似性,并将贪心策略作为类成员的归并操作依据,实现增大信息熵衰减程度的目的。在彝文数据集上的实验结果证明,该方法能够对未知的古籍文献字符图像进行准确归类,进而提升古籍图像的整理、收集、标注的效率。(2)在基于信息熵改进的古籍图像聚类算法中存在归并操作误判的问题,因此本文提出一种基于关联分析优化古籍图像聚类方法。该方法首先对密度峰值聚类下的图像聚类结果进行归一化,进而得到关键点频率矩阵,之后对矩阵集合进行频繁项分析,并提出关联分析推导关键点频率规则,结合相似性函数优化古籍图像聚类算法中的归并操作。实验证明,该方法在图像相似性判断中效果显著,提高了对古籍文献图像的聚类归并正确性。(3)为了验证信息熵改进的密度峰值聚类算法和关联分析优化古籍图像聚类算法,以及进一步完善古籍图像标注技术应用研究工作,本文研究并构建了古籍图像标注技术应用系统原型。该系统可以利用聚类生成的标注样本,并借助基于Theano平台的卷积神经网络分类器实现古籍图像的标注。该系统能够实现对标注数据的管理与显示,提供了古籍图像的标注服务与样本数据集的构建管理服务。该系统有助于推动古籍文献图像的检测识别与检索阅读研究。因此,本文提出的古籍图像标注算法与技术,有助于构建古籍图像数据库,可以进一步为古籍文献识别、检测、检索提供实验素材,对图像聚类的研究具有一定的借鉴意义。本文工作还有助于推动古籍文献的知识传播与保护工作,可以为古籍图像标注领域的研究提供理论与技术支持。