基于密度峰值聚类的古籍图像标注技术应用研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:telecom_god0221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古籍图像,作为一种以古文字形态存在的媒介,记录了人类过去对社会与自然思考的精髓。因此,深入研究古籍图像处理工作,有助于传统文化的传承与发扬,具有理论的研究与应用价值。为了满足归一化后的古籍文字图像处理中对标注样本的需求,本文主要以聚类的方法结合人工获取图像标注样本,并基于该标注样本数据使用分类器实现了古籍图像标注。在此过程中,提出了基于信息熵改进的古籍图像聚类算法、关联分析优化古籍图像聚类算法与古籍图像标注技术应用系统设计方案,具体的研究工作包括:(1)针对古籍图像处理领域需要使用大量标注样本数据的现状,本文探索了基于密度峰值聚类的古籍文字图像的分类方法,研究与设计了一种密度峰值聚类的度量函数,并提出一种基于信息熵改进的古籍图像聚类分析方法。该方法通过利用距离阈值枚举进行聚类,求解聚类结果的信息熵,分析信息熵的衰减推导类阈值,从而完成对图像的聚类工作。通过改进的度量函数求解图像间相似性,并将贪心策略作为类成员的归并操作依据,实现增大信息熵衰减程度的目的。在彝文数据集上的实验结果证明,该方法能够对未知的古籍文献字符图像进行准确归类,进而提升古籍图像的整理、收集、标注的效率。(2)在基于信息熵改进的古籍图像聚类算法中存在归并操作误判的问题,因此本文提出一种基于关联分析优化古籍图像聚类方法。该方法首先对密度峰值聚类下的图像聚类结果进行归一化,进而得到关键点频率矩阵,之后对矩阵集合进行频繁项分析,并提出关联分析推导关键点频率规则,结合相似性函数优化古籍图像聚类算法中的归并操作。实验证明,该方法在图像相似性判断中效果显著,提高了对古籍文献图像的聚类归并正确性。(3)为了验证信息熵改进的密度峰值聚类算法和关联分析优化古籍图像聚类算法,以及进一步完善古籍图像标注技术应用研究工作,本文研究并构建了古籍图像标注技术应用系统原型。该系统可以利用聚类生成的标注样本,并借助基于Theano平台的卷积神经网络分类器实现古籍图像的标注。该系统能够实现对标注数据的管理与显示,提供了古籍图像的标注服务与样本数据集的构建管理服务。该系统有助于推动古籍文献图像的检测识别与检索阅读研究。因此,本文提出的古籍图像标注算法与技术,有助于构建古籍图像数据库,可以进一步为古籍文献识别、检测、检索提供实验素材,对图像聚类的研究具有一定的借鉴意义。本文工作还有助于推动古籍文献的知识传播与保护工作,可以为古籍图像标注领域的研究提供理论与技术支持。
其他文献
基于模型的聚类分析对模式识别、数据挖掘和机器学习等领域具有重要的指导意义,其中有限混合模型(FMM)作为聚类分析的基础发挥着重要的作用。本文针对图像分割的共性问题及有
半导体器件是构成现代电子设备的基本元件,和摩尔定律预测的结果一样,电路的集成程度越来越高,新材料和新工艺的更新周期很短,使人们的电子设备足以来驾驭这个信息化的时代。
目前,随着网络和移动设备的快速发展,政府和行业信息化逐渐走入公众视野,移动微博办公成为当前研究的热点之一。移动微博办公是在数字化办公的基础上通过有效结合移动计算技
写作教学是基础教育的重点也是难点。高中阶段是提高写作能力的关键时期。一个民族的素质取决于该民族受教育程度,而受教育者文化素养主要来源于语文教育。这一特点是语文学
无线通信是依赖空间传播的电磁信号为载体完成信息传递的过程的,天线作为无线通信最为关键的部件之一,电磁波的发射和接收都要依靠天线来完成。天线性能的优劣将直接决定整个
机器学习在现实生活中的应用变得越来越热,而基于大数据的机器学习则愈加流行。而在机器学习的理论学习中,分类器的研究占据着不可比拟的地位,绝大部分的研究问题都可以转化
植物作为地球上最常见到的景物,是组成地球生态系统非常重要的一部分,多年来,研究者一直在探索植物生命及其生长过程的奥秘并取得一定成果。花朵是植物最重要的器官之一,不仅
随着科技水平的不断提高,人们对无线通信系统有着小型化和多功能的需求,而天线作为无线通信系统中的能量转换器,起着将导行波与自由空间波相互转换的作用,在现代无线通信系统
基于动态手势跟踪与识别的研究中,数据有许多不确定性的因素,比如手在运动中快速移动、背景的影响,以及拍摄角度等。为进一步提高动态手势目标跟踪精确度与识别准确率,需要针
移动互联网的发展和Android系统的广泛应用,使得Android应用成为攻击者关注和实施攻击的重要目标之一。传统的恶意软件分析方法或者采用软件动静态分析技术对整个应用进行测