基于单词全局特征的印刷体英文单词识别系统研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zhaoxuan898556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文的研究重点是印刷体英文识别技术。传统的印刷体英文识别系统很大程度上依赖于字符分割的好坏。字符分割的难点在于如何解决粘连字符的分割问题,特别是对小字号的字符,目前还没有一个有效的解决方法。   本文提出了一种基于单词全局特征的特征提取方法。该方法通过对截取的单词二值图像提取全局特征并进行多级的分类和识别,避免了字符分割这一复杂的过程,针对实际应用中常用的且字符粘连情况严重的12号TimesNewRoman字体进行识别得到了较好的识别效果。通过对特征库中的14877个单词进行测试,识别率达到99.7%。基于该方法本人研制开发了在Windows平台上适用的《图文翻译好帮手》系统,它可以帮助金山词霸截取PDF文档中图片格式的单词并进行翻译。该系统具有使用方便、实用性强的特点,通过对大量实际PDF文档进行测试,识别率高达95%。
其他文献
  本文由两部分组成,第一部分主要研究在OCR中所进行的细化处理方法,第二部分主要研究多进制小波在人脸识别中的应用。  OCR是模式识别中应用最成功的研究方向之一,自20世纪
本文主要研究了白细胞分割和识别的相关算法.白细胞是人体免疫系统中重要组成部分.临床上通过观察不同类别白细胞的数量、所占比例及其形态变化来诊断造血系统疾病.因此,白细
本文主要包含两部分内容.其一,利用KAM理论研究了一类次线性反转系统的Lagrange稳定性,即所有解是有界的;其二,利用KAM方法研究了一类退化的斜积系统(包含连续系统和离散系统)的可
本文研究了区间多项式的零点和参数曲线的区间隐式化问题.我们首先说明了误差控制在计算机辅助几何设计和几何计算中的重要性,并回顾了关于区间多项式的零点问题和区间隐式化问
  近年来,一些学者应用不同的方法对教育和经济增长的关系进行了定性与定量的分析。在本文中,作者首先依据现代教育经济学理论对教育特别是高等教育对经济增长的贡献作用进行
  本文以经典Banach空间几何理论为基础,通过讨论Banach空间上连续双线性泛函所成空间的凸性和光滑性,得到原Banach空间的凸性和光滑性。并讨论Banach-Hahn定理,Riesz表示定理
本文研究了受需求扰动的二级供应链系统前馈反馈最优跟踪库存控制策略、含提前期的多级供应链系统近似最优库存控制策略以及近似最优跟踪库存控制策略.具体内容如下:1.针对二级供应链系统中市场需求扰动引起的牛鞭效应问题,提出了一种基于前馈补偿的最优跟踪库存控制策略.首先,针对需求扰动可模型化为线性外系统的情形,引入了一个渐近稳定的期望系统.然后,基于线性二次型性能指标,给出了受需求扰动的供应链系统的前馈反馈
近几十年来,国内外大跨空间结构蓬勃发展,钢拉索作为不可或缺的高效受拉构件应用于各类空间体系中,尤其是张拉结构。钢拉索的存在不仅帮助提高结构刚度,改善体系的内力分布,且降低构件内力峰值,提高结构的承载力。对于结构中的钢拉索,边界条件不明确,整体结构对拉索索力识别的影响不可忽略。本文根据现有索力识别理论及ANSYS有限元软件分析,考虑整体结构影响下的索力识别,研究内容如下:首先,推导并总结了单索在不同
学位
本文研究了某些特殊组合恒等式的自动证明算法及某些特殊序列发生函数的自动求解算法.论文的主要内容如下:第一章简要地介绍了组合恒等式证明理论的发展进程.第二章介绍组合
3月18日上午,中国共产党中铁武汉电气化局集团上海分公司第一次代表大会胜利召开。公司党委书记张宏平做了题为《加强党的建设发挥政治优势不断助推企业内涵式发展》的报告,