基于笔画距离的手写文档检索算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mumuduck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
笔式交互是多通道交互(Multi-Model Interaction,MMI)的一种重要形态,笔式交互允许用户通过自由勾画、手势等交互方式实现自然高效的交互,逐渐成为人机交互研究的热点。人们对笔式用户界面的需求和研究使得它得到了广泛的应用,包括便携和交互的平板电脑Tablet PC、PDA及其它移动设备,以及电子教学或智能办公环境下的电子白板和电子笔记本等。如何准确的在笔式交互系统产生的手写文档中进行查询、检索和定位是当前笔式交互技术的一个研究热点,必将进一步的推动笔式交互的应用和普及。  本文以一种智能人机交互手写编辑系统为基础产生手写电子文档,并对手写文档中的文字检索方法进行了研究。手写体文档的检索既与手写体文字的识别有相似之处,但同时也有重要区别,主要体现在这种检索需要在开放的集合上执行,而文字识别通常可以看成是在一个事先建立的固定样本集合中查找与匹配。显然前者面临的情况会更复杂。为了有效解决这一问题,本文充分利用时间与空间信息,提出了一种基于笔画距离的手写文档检索算法。  首先对手写文档中的文字进行归一化预处理,然后利用DTW(Dynamic Time Warping)算法计算笔画之间的距离,在此基础上,使用最小近邻优先算法和局部最优算法确定笔画对应关系,最终使用DTW距离计算手写文字的相似度,从而提出了基于笔画距离的手写文档检索算法。  本文的方法不需要训练数据作为先验知识,对不同人书写的文字具有较高的容错能力。该算法在对HIT-OR3C(哈尔滨工业大学中文在线识别语料库)进行测试的时候,取得了较好的效果:对随机选取的一篇在线文档中出现频率最高的100个文字进行检索,基于笔画的DTW距离的检索方法比基于笔画整体距离的检索方法和基于能量弹性网格的检索方法的在准确率上提高了5%~20%,在召回率提高了3%~5%。  与现有的手写输入检索方法相比,本文所提出的方法检索对笔画的随意性容忍程度高,正确率和召回率较高,基本满足实用需求。
其他文献
当今社会,各种调度规则与人工智能技术的结合已经成为目前调度问题研究的热点。基于知识库的调度是在一个群体中,建立知识库实现优化,作为一个关键模块,调度规则与知识库结合
虚拟现实技术是利用计算机生成一种高逼真的模拟环境,并可通过多种传感器接口,使用户“沉浸”到此环境中,从而实现用户与该虚拟环境之间的交互。目前,虚拟现实技术己广泛应用
嵌入式系统自诞生以来飞速发展,使得PDA、Pocket PC和智能手机等移动设备也迅速普及,基于移动设备的各种多媒体应用也逐渐丰富起来。2D图形显示已越来越不能满足人们对图形真
未来互联网体系架构需要得到大规模部署和验证。路由器是组成互联网基础设施的核心设备,解决互联网在安全可信、服务质量、移动管理、大规模路由等方面存在的问题采用的主要
无线传感器网络综合了传感器技术、计算和通信技术,成为计算机科学领域一个活跃的研究分支。在无线传感器网络体系结构中,网络层的路由技术对无线传感器网络的生命周期至关重
在日新月异的信息时代,大数据的出现给我们对于数据存储和处理带来了新的问题与挑战。在生物识别技术领域中,指纹识别技术的地位越来越重要,在身份识别和信息安全中发挥的作
随着Internet和宽带网的快速发展,流媒体应用已经成为当前Internet领域中的重要应用之一。流媒体技术通过多媒体形式能够呈现出比传统的文本格式更为直观和丰富的信息内容。
当前即时通信软件的开发主要是从协议的底层来进行研究,主要利用的是几大开源协议栈以及基于这些协议栈之上的通信API接口等。如何从现有开源协议或应用API或第三方软件着手
在当今信息爆炸的时代,人们面对着大量没有经过整理的原始数据时,将会茫然不知所措,而自动文摘技术能给人们提供更有力的信息加工技术和工具,但时下出现的自动文摘系统,特别
随着包括化学情报学、生物信息学、计算机视觉、视频索引、文本检索以及Web分析在内的广泛应用,图作为一种一般数据结构在复杂结构和它们之间相互作用建模中变得越来越重要。