基于对称区域的古籍汉字图像检索

来源 :河北大学 | 被引量 : 0次 | 上传用户:woshizhaozhiqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古籍汉字结构复杂、形变频繁等特点,使得现有的图像聚类、检索理论和方法在面对古籍汉字图像时存在许多有待解决的问题。为了更好地辅助汉字专家的研究工作,本文结合汉字的结构特点,采取“先聚类后检索”的策略,设计了古籍汉字单字图像的全局与局部检索方法。在古籍汉字图像切分中,通过搜索连通区域及删除、合并处理对整页古籍汉字图像进行切分,得到单字图像。在古籍汉字图像检索中,根据古籍汉字图像的结构特点,采取“先聚类后检索”的策略;聚类阶段,在对经过预处理的字符图像进行弹性网格划分并提取方向线素特征的基础上,采用K-means算法对单字图像进行全局聚类和局部的上、下、左、右、中聚类;检索阶段,在全局检索方面,采集待检索汉字图像的全局特征后确定其所属聚类并进行类内检索;在局部检索方面,根据用户划定的检索区域以及计算所得到的对称位置区域,进行区域特征匹配获取原始聚类中心和对称聚类中心,在相应类内检索与用户划定区域特征相似的图像,通过相似度控制显示对应的检索结果图像。实验结果表明该方法较好地满足了汉字研究专家的检索需求,有效地提高了古籍汉字研究工作效率。
其他文献
PDF文档凭借其在表现与传输等方面的优势得到了愈来愈广泛的应用,成为互联网上各种文献存在的主要形式和检索技术需要处理的重要资源;因此,研究含有数学表达式成分的PDF文档的快
Microsoft公司的嵌入式操作系统Windows CE .NET是一个十分流行的嵌入式系统。它可以使用应用程序开发工具eVisual C++,强大的开发平台Platform Builder,它丰富模块化的组件
无线传感器网络是对分散数据进行采集、传输和处理的技术性网络,其内容包括了通信传输、信息采集、数据处理、安全防御和能量资源等等,其涵盖范围几乎涉及工业技术领域的各个
随着电子商务系统越来越复杂、功能越来越强、与系统业务的集成度越来越高,开发人员迫切需要借助复用程度高的框架来快速高效地开发电子商务系统。同时,大部分电子商务系统都没
电子商务随着Internet的热潮逐渐流行起来,成为了商业的新模式。电子商务系统在运行的过程中积累了大量的数据,这对数据挖掘产生了需求。对供应商来说,这些数据是十分宝贵的决策
随着会话初始化协议(SIP)逐渐成为下一代网络的核心信令控制协议,基于SIP协议的服务器和终端产品也大量涌现。对这些SIP产品的性能评测自然成为目前亟待解决的问题。本文探讨
本文对关联规则挖掘算法优化和概念格粗糙集理论进行了研究。文章认为,粗糙集理论在数据分析中有着独特的作用。对于一些不完整的数据库(有些数据不能完全确定),可以借用粗糙集
当前我们正处在一个数据爆炸式增长的大数据时代,在大数据中,主要以半结构化和非结构化的数据为主,例如文本、图像和视频等。同时,挖掘分析这些多媒体资源也成为人们收集信息
随着我国经济实力的大幅度提升,互联网与旅游业快速发展,在线旅游业不断兴起。用户可通过互联网浏览各种各样的旅游信息。但是,日趋严重的信息过载现象,导致用户要检索符合自
今天,越来越多的企业面临着“信息孤岛”的挑战,消除“信息孤岛”就是要将各自独立的信息系统进行集成,已成为企业信息系统的发展方向,而Web Services则是最适合进行系统集成