中文手写文档的快速关键词检索

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:petry1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络通信的迅速发展,数字资源变得越来越丰富。为了方便编辑、储存和传输,越来越多的纸质文档被转化成数字文档。而这其中的大量数字资源是以图像而非文本编码的形式存在,如何对这些文档信息进行高效管理和使用,尤其是对文档内容的快速检索是重要的研究方向。关于文档检索近年来有很多研究工作发表,但是这些方法对于手写文档检索都很难同时保证较高的检索精度和速度。针对大规模多人书写的脱机中文手写文档,本文提出了一种快速实时的关键词检索方法。首先,本文搭建了一个基于过切分、字符识别的手写中文文档的关键词检索系统,并提出基于文档图像的候选切分-识别网格预先计算并保留多个候选识别结果生成索引文件。然后只需要在索引文件上检索关键词,能大幅提高检索速度同时保持检索精度。其次,初始生成的索引比较大,包含许多冗余信息。本文考虑了文字间的上下文信息,搜索文本行的候选切分-识别网格中的TOP-N上下文最优路径,再由这些最优路径生成新的索引。这种方法能在保持检索精度的前提下,进一步压缩索引大小,提高检索速度。最后,本文在手写中文文档数据库CASIA-HWDB上,进行了一系列的索引压缩和关键词检索的实验,结果分析证明了本文方法的有效性。
其他文献
在视频图像处理领域,分割与跟踪一直是一个热门问题。针对足球视频的特点,本文提出了一个快速的球员分割与跟踪算法。首先,根据RGB空间和HSI空间在颜色表述上的优势互补,利用
本论文围绕智能移动机器人离线编程语言的设计展开研究,主要提出了图标流程图式移动机器人离线编程语言的设计和实现方法,同时,本文讨论了智能机器人的三维仿真方法、多超声波传
现代市场经济是一种以信用交易为主的信用经济,企业信用管理是保持信用经济稳定运行所必要的重要架构,企业信用管理最主要的方法就是信用评分,企业信用评分是对企业债务偿还能力
基于区间论域可拓学识别技术的脑电波信号采集和信号分析专家系统是在实验对象服用一定量的药量后,通过对其进入睡眠时期的不同过程中的脑电波进行实时采集、监测、识别与推理
制冷行业覆盖面广,在国民耗电总量中所占比例很大,而制冷行业中,能源主要被制冷机消耗。当前的制冷机的设计主要基于单一线性模型给定工作点,在非额定工作点下能量浪费十分严重。因此,更有效地控制制冷机,使之高效节能运行,对于节约用电意义重大。本文以水冷大型制冷机为研究对象,对制冷系统的工作原理进行了详细分析。在已有的风冷系统模型的基础上,补充了冷冻水和冷却水两个热交换环节,针对该模型中参数过多,不易于在实
高速视觉是一种每秒采集200帧以上的先进智能传感技术,在国防、工业、生物、医疗等领域已经广泛被应用。现有的高速视觉系统主要是依靠高性能计算机作为处理平台,处理速度快,稳
近年来,编队控制由于有众多实际应用而受到越来越多的关注,成为近年来多自主体协调控制中的热门研究方向之一。编队控制指的是形成并保持一定队形来实现目标,有参考的编队控
电机是工业、农业和交通运输的重要设备,应用领域十分广泛。三相交流异步电机因成本低、可靠性高、结构简单和维护方便等特点,应用几乎涉及到所有行业。交流电机起动时,如果
随着社会经济的发展,视频监控逐步在工业生产、家庭安防、交通管理、医疗诊断等领域发挥重要作用。论文将视频监控和移动互联网相结合,提出了基于Android的视频监控机器人系
Markov跳变系统代表一类重要的随机系统,系统的动态按离散Markov过程规律随机地在有限连续子系统集合里切换.由于这类模型可以很好地描述运行过程中会遭遇环境变化、人为干预、