基于能量弹性网格的手写文档检索方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:whfbbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今对于标准编码文字的检索已非常成熟,其应用几乎无处不在。如果能用与检索标准编码文字相类似的方法来实现对以计算机文件形式存储的手写文档的查询和检索的话,则能够大大提高手写体文档的应用价值,从而也为提高人们日常工作效率以及达到真正无纸化办公提供了一种有用的工具。但这并非易事,因为传统的信息检索方法能比较容易地实现对于精确一致信息的检索,但要在手写输入时写出两个完全相同的文字既不现实也无实际意义。本文以一种手写文档处理系统为基础建立手写体文档,并对手写体文档中的文字检索方法进行了研究。手写体文档的检索方法既与手写体文字的识别有相似之处,但同时也有重要区别,主要体现在这种检索需要在开放的集合上执行,而文字识别通常可以看成是在一个事先建立的固定样本集合中查找与匹配,显然前者面临的情况会更复杂。为了有效解决这一问题,本文充分利用时间与空间信息,首先建立了基于模糊语法模式的笔画识别方法,在此基础上,建立了手写体文字的能量弹性网格及基于弹性网格坐标的文字表示,然后利用惩罚因子提高检索信息的冗余度,从而建立了一种计算手写文字匹配的新方法。本文的方法不需要训练数据作为先验知识,对不同人书写的文字具有较高的容错能力。初步实验的结果证明了该方法的有效性。与现有的手写输入检索方法相比,本文所提出的方法检索速度优势明显,对笔画的随意性容忍程度高,正确率和召回率较高,基本满足实用需求。
其他文献
基础数据管理与指标分析系统是基于国家电网公司“十一五”信息发展规划的前提下开展实施的,其中“数据交换统一平台”是该系统的基础,它负责从各个业务系统对应的数据库里定
组块识别是自然语言浅层句法分析的重要任务之一。它通过采用“分而治之”的策略把句子解析成较小的单元来简化句子结构,并为进一步揭示这些单元间的句法关系提供基础。组块
学位
网络与通信技术的迅速发展,使得结构复杂的网络环境和灵活多样的业务应用对网络管理的依赖性日益增强,同时也对网络管理系统在自动化、智能化及快速反应和动作协作等方面的能
近年来Linux系统在服务器领域的占有率一路攀升,尤其是在云计算领域。但是由于源代码开放,Linux面临着日趋严峻的安全挑战。Linux环境下的内核级Rootkit类型木马拥有与操作系统
RFID (Radio Frequency Identification)射频识别技术,是采用无线射频方式进行非接触通讯,自动识别物品并获取数据的一种快速识别技术,已在各个领域得到广泛应用。基于RFID技
PC机是以其低廉的价格、灵活的架构、不错的性能被人们广泛地应用在各行各业中。近十几年来,PC机性能飞速发展。但是PC机重要的存储部件——硬盘的性能发展速度缓慢。而人们
无线射频识别(Radio Frequency Identification,RFID)技术的快速多样化发展对传统RFID应用的适应性、灵活性及可维护性提出了挑战,导致了RFID中间件的出现。RFID中间件为应用提
P2P网络中的节点既是服务的提供者也是消费者。由于P2P网络大多排斥集中的CA,没有权威机构来规定节点的交易规则,使得网络中的节点经常是在未知环境下进行交易的,一些节点可
随着信息技术的发展和计算机的广泛应用,如何保证和提高软件质量成为软件工程最为关心的问题之一,以软件测试为中心的软件质量保障技术在软件生产实践中得到了迅速的发展。但