印刷体汉字识别预处理的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fengaitong1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
印刷体汉字识别是汉字识别技术的一个重要课题,涉及到图像处理和模式识别领域。随着智能化信息和网络时代的到来,印刷体汉字识别在证件识别、中文信息处理、办公自动化等方面都有着日益广泛的应用。预处理是印刷体汉字识别系统中的重要环节,预处理结果的好坏,直接影响了识别系统中识别率的高低。因此研究印刷体汉字识别的预处理技术具有重要的应用价值和理论意义。本文主要是对印刷体汉字识别的预处理研究,实现了对文档图像的自动预处理,取得了较好的效果。主要工作如下:(1)针对数码相机输入的图像由于光照不均匀、噪声等原因所造成质量不高的特点,对二值化方法进行大量的研究和实验,对预处理过程进行了改进。因为切分后单个字符图像面积小,像素灰度分布比较均匀,因此更容易分割背景和文字。在对整篇文档二值化处理后的基础上,增加了一步对单个字符图像二值化处理。实验结果表明,通过对单个字符的二值化处理,使汉字笔画噪声更小,汉字信息被更完整的保留。(2)对汉字细化算法进行了较深入的研究。本文对一种基于数学形态学的击中击不中汉字细化方法进行了改进,定义了一组新的结构元素序列,改进了算法流程,使在交叉点处的处理效果更好,笔画更平滑。并且在该细化结果的基础上,定义了一种新的汉字笔画提取方法。大量实验结果表明,该算法可以准确的提取汉字的水平、垂直、撇和捺的笔画,特别是对撇捺笔画的提取,保留了汉字的特征,且具有较好的连通性。(3)对汉字字体识别进行了初步的研究,应用基于多尺度小波纹理分析的方法,选取小波能量分布特征和小波能量比例分布特征,进行宋体、楷体、黑体、仿宋、隶书和幼圆六种汉字字体识别。此外,本文对印刷体汉字识别预处理过程中的关键步骤进行了研究,实现了对文档图像的倾斜矫正、版面分析、汉字切分,以及文字的归一化和平滑去噪,并取得了较好的效果。
其他文献
<正>国防知识产权是指国防科技工业系统产生和使用的知识产权,包括核、航空、航天、兵器、军工船舶、军工电子等产业的产品研发以及生产经营管理中产生的知识产权,以及这些产
依据土壤水均衡原理,采用土壤水潜在可利用量、调蓄系数与土壤水高效利用率等指标,运用土壤水动态资料,深入分析太行山前平原土壤水高效利用性,并以此制定精确灌溉制度。研究
目的探讨"三制管理"在优质护理服务中的实施效果。方法在实施优质护理服务的过程中,实施三制管理,即责护组长小组负责制、包干护士管床责任制、护理三级查房制,比较实施"三制
供需双不足导致我国当前巨灾保险市场停滞不前。影响巨灾保险需求的因素主要有客观风险、消费者收入、保险价格、心理因素和对政府救助的依赖等,影响巨灾保险供给的因素主要
航天诱变育种又称空间诱变育种,是一种利用航天技术与现代生物技术、常规育种技术相结合而成的新兴育种技术。该文系统的介绍了航天诱变育种的基本概念、技术特点、国内外的
传播科学文化,促进公众科学素养的提高,对于一个国家和民族的发展起着十分重要的作用,而目前科学文化在我国社会文化中仍然是一个薄弱环节,公众对科学缺乏真正的理解。因此,
作为典型的知识经济产业的软件产业,其微观基础软件企业的经营要素和资源要素虽然从总体上来说与其它企业大致相同,但在各要素的比重和排序上有很大区别。软件企业的经营要素
视频监控系统经过多年的发展,在公共安全方面发挥越来越大的作用。近年来人们对公共安全和交通安全越来越重视,传统的视频监控系统需要工作人员长时间集中精力监控,只能做到
木兰女扮男装替父从军的故事在我国广为流传,尽管我们至今仍无法确定历史上究竟有无木兰其人,但木兰故事在中国民间和自唐代起的文学作品中广为流传确是事实。研究木兰故事在
随着社会经济的发展,在区域建设用地变化中,占重要地位的农村居民点用地变化,已经成为城乡一体化进程中值得关注的问题。以城市化为角度对广州市农村居民点用地现状和变化进