联机中文手写文档的关键词检索

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:rockykimi81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着笔输入设备和笔式用户界面的广泛应用,联机手写文档分析、识别和检索技术成为重要的研究方向。一夜惊喜技术虽然取得了很大的进步,但是受到识别精度的影响,不能够正确识别的词语就无法查找到,导致召回率不够高。而关键词检索技术是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以找到更多有用的信息。本文主要研究大规模多书写入的联机中文手写文档关键词检索方法,以字符识别和文本识别为基础,在候选切分-识别网格中计算候选字的置信度,并利用字符相似度计算词语的相似度。通过字词相似度的有效计算和动态搜索,可以在大数据库上有效地查找关键词的位置。本文的主要工作和贡献如下:   (1)提出一种基于一对多(one-versus-all)原型分类器的关键词检索方法。和基于最小分类错误(minimum classification error,MCE)准则训练的多类分类器不同,一对多原型分类器可以更好地拒识错误类别。实验结果表明,一对多分类器在关键词检索中的性能优于多类分类器。   (2)提出一种基于候选切分-识别网格中N-best路径的字符置信度估计的关键词检索方法。该方法的路径评价准则是一种集成字符分类器、二元语言模型和几何模型的判别函数。本文利用soft-max把路径的分数转换成概率,置信度参数可以通过训练文本上的字符混淆网格(character confusionnetwork,CNN)解码进行估计。实验结果验证了该方法的有效性。   (3)提出一种基于候选切分-识别网格剪枝和边概率计算的关键词检索方法。基于半马尔可夫-条件随机场(semi-Markov conditional random fields,semi-CRFs)模型,利用前向-后向算法对候选切分-识别网格进行剪枝,并计算边概率,作为候选字的置信度。为了提高关键词检索的召回率,提出一种误差校正的字符同步动态搜索算法。实验结果验证了半马尔可夫-条件随机场和误差校正的动态搜索算法的有效性。
其他文献
高速飞行器的发展是一个国家国防实力的重要体现,发达国家投入大量的人力和财力开展了高速飞行器的研究。飞行器进入大气层高速飞行的过程中,光学头罩与高速气流发生剧烈的相互
随着市场竞争日趋激烈,如何通过供应链成员企业之间的合作与协调来降低成本、提高客户服务水平和快速响应市场需求成为供应链管理研究的重点与热点。供应链的协同管理是供应链管理的核心内容,其中制造和交付的协同调度过程是供应链协同管理的一个重要的研究课题。本文针对带有时间约束的单机制造与运输交付协同调度问题进行研究。研究内容如下:(1)针对单机制造和多客户组成的两级供应链系统,考虑有容量限制单台运输车辆批量运
非线性系统的最优控制一直是控制领域研究的热点和难点之一.而传统的基于数学模型的最优控制在面对模型不确定的复杂动态系统时常难达到预期的性能指标,因此,采用基于数据的控
工业过程中的很多控制系统在实际运行时都存在性能缺陷,若没有定期的维护,控制系统的性能会随着时间的推移而退化,甚至会造成巨大的经济损失。本文针对过程控制系统中两种广
该文共完成了以下四个方面的工作:1.运用QFD(质量功能配置,Quality Function Deployment)工具一帮助质管人员进行设计质量评估;2.在QFD中引入多目标规划模型,优化和权衡QFD规
人左右眼间距的存在,使得同一空间物体在左右眼视网膜上的投影存在位置差异,称之为视差。立体匹配旨在研究如何准确鲁棒地计算左右图像的视差,是计算机视觉研究的核心问题之一,具
大脑是由多个相互连接的网络构成的复杂系统,其中相互关联的网络模块(如:皮质区域)具有不同的功能。一个基本问题是在这样的系统中是如何进行信息处理和网络如何生成对应的认
近年来,在石油、化工等危险场所,现场总线的应用日益广泛,本质安全技术以其体积小,可靠性高,成本低以及在危险场所能带电操作而成为了现场总线系统中防爆型式的首选。与传统的本质安全技术不同的是现场总线本质安全系统技术具有“多负载”特征,而且要求满足“可互换性”和“可互操作性”,也就是允许不同的制造厂商生产的总线电气设备可以自由的挂接在同一个总线中,并且实现相互之间的通信。对于现场总线技术而言,希望负载能
近年来,统计机器翻译的研究十分火热,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件却仍然独霸专业翻译市场,统计机器翻
打乒乓球机器人为一手眼协调系统,通过视觉系统“感知”乒乓球的飞行状态,利用视觉测量数据和人工智能算法对未来的飞行轨迹进行预测,并通过控制系统“决策”出机器人的运动轨迹