【摘 要】
:
书籍报刊等印刷体文档图像的识别是模式识别领域的一个重要分支。文档图像中的字符识别较为成熟,市场上已经出现较多的商业产品。但是文档图像中表格的识别目前还不太成熟,尤
论文部分内容阅读
书籍报刊等印刷体文档图像的识别是模式识别领域的一个重要分支。文档图像中的字符识别较为成熟,市场上已经出现较多的商业产品。但是文档图像中表格的识别目前还不太成熟,尤其当表格线在扭曲变形等情况时,现有产品识别的鲁棒性较差。本文分析了国内外文档表格识别的研究与产品现状,对文档图像预处理、闭合方形表格的识别、印刷体汉字的识别技术展开研究,最终实现一种高鲁棒性的表格识别方法。本文完成的主要工作如下:1.研究文档图像的预处理技术,使用了局部阈值的Sauvola算法进行文档图像二值化;由于文档图像中表格线的存在,使用Hough变换方法进行文档图像的倾斜校正;应用基于连通域的自底而上的版面分析方法,将文档的版面块分割为文字、表格、图画等区域。2.本文使用改进的有向单连通链法提取表格线,在传统方法的基础上,对连通链起点和终点位置的确定进行了修正,提高了连通链提取的准确性;利用最小二乘法将有向单连通链拟合抽象为表格线段。3.在提取的表格线段的基础上,根据水平和竖直方向线段之间的关系得到表格的特征点集合;根据特征点之间的连接以及坐标关系,得到表格的表格单元集合;分析Latex排版系统表格绘制模块的语法特点,将表格架构信息表述为Latex字符串。4.对文本膨胀后使用连通域分析的方法进行文本行分割,随后竖直投影进行文本行的字符分割;设计卷积神经网络对印刷体汉字数据集进行训练,得到汉字字符的分类器。在以上研究的基础上,基于QT和OpenCV,设计了印刷体文档表格识别软件系统。经实验验证,本系统能极好的识别高质量表格,对扭曲、模糊的低质量表格的识别率达到74%,高于现有部分OCR软件。
其他文献
本试验以马铃薯品种大西洋脱毒试管苗为材料,采用正交试验设计,研究了蔗糖和外源激素(6-BA、B9、NAA)对脱毒试管苗生长状况的影响。研究结果表明,对于试管苗的不同指标,其最优组合
<正> 《想飞》是徐志摩于1926年旅居英国时所写的一篇抒情散文。实际上它是作者在思想上进行自我解剖的一种表露,抒发了作者向往自由、追求光明的强烈愿望。这篇散文文辞华美
环境影响评价是重要的环境保护制度之一,有很强的预防性。本文针对京沈高铁建设项目环境影响评价公众参与事件反映出的主要问题,进行分析探讨并提出相应的对策,希望能为环境
目的:通过操作项目竞争强度来探讨焦虑特质大学生提取诱发遗忘(RIF)是否受相关代价与效益问题(CCB)的影响。方法:从618名大学生中筛选出高焦虑特质组[特质焦虑量表(T-AI)总分
陕西省关中地区独特的地理环境与深厚的文化积淀孕育了特色鲜明的关中方言和民俗文化,关中方言的饮食词汇系统正是观察和研究关中地区历史文化的珍贵材料。该地区自远古以来形
以“教师为主导,以学生为主体”并不是在课堂上淡化教师自我存在的价值,更不能迷失教学主导的方向,应该让师生这一双向角色真正互动起来,实现教学效果的最大化,这才是二期课
湿筛法是测定土壤团聚体粒径分布和稳定性的经典方法。土样在湿润过程中,同时发生了崩解、差异膨胀和物理-化学分散作用。已有的湿润方法按湿润速度可分为快速湿润和慢速湿润
使用前置Buck变换器调功的感应电能传输(inductive power transfer, IPT)系统是无线充电系统常用的电路拓扑结构,针对Buck-IPT系统中出现的启动用时长和电流过冲大等问题,研究并
目的探讨基于大型开放式网络课程(Massive open online courses,MOOC)的CBL混合教学模式在核医学教学中的应用价值。方法以2016级临床医学专业实验班60名本科学生作为研究对
<正>目的:评价儿童骨化纤维瘤患者肿瘤扩大切除术后同期修复重建的远期效果材料与方法:收集1998年1月至2012年12月就诊于北京大学口腔医院口腔颌面外科的儿童骨化纤维瘤患者,