复杂表格文档预处理与文本提取算法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:suli115296303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。包含表格的复杂文档存在于生活的方方面面,针对这些文档的文本信息自动提取和识别具有很大的应用前景。本文以病历表图像和快递单图像为研究对象,对包含表格的复杂文档图像预处理、表格检测、文本提取等内容进行了较为深入的研究。论文的主要工作如下:(1)表格区域定位及矫正。给出了基于直线交点交角的区域定位算法,把图像中表格区域从原图像中定位分离出来,很大程度提高了后续处理的准确性和效率。之后采用透视变换算法实现图像矫正处理,克服了图像畸变对图像处理的影响。实验结果表明,该方法能较好地从复杂图像中定位并矫正表格区域。(2)表格检测。首先改进基于边缘图像的局部自适应二值化算法,使之对本文研究处理的表格图像具有良好的二值化效果。然后改进邻接图算法(Block Adjacency Graph,BAG),增强了该算法表格线检测的有效性。检测表格线之后,通过分析直线结构、表格特点,最大限度地修补缺失的表格线。实验证明该算法能够有效实现表格区域图的表格检测。(3)文本提取。完成表格检测后,改进邻接向量连接算法,补全字符的断裂笔画,从而保证了文本信息的完整性。接着根据表格线进行文本段落定位处理,最后通过分析联通部件的特征实现文本行的分割。实验表明该方法能够较好完成表格文档的文本分割、提取工作。为测试算法的有效性,本文对300幅快递单以及40幅病历文档图像进行了实验,实验结果表明了论文方法的有效性。
其他文献
<正> 预报温度实际就是预报气团的移动与变性。苏联克美文提出的最低温度预报经验公式:tmin=tw-(t'w-t'min),在我站使用多年,经过两步改进,使用C1和C2值订正,使预报准确率由原
针对工业工程教学中实训与理论教学分离、实践教学各环节联系不紧密等问题,在云平台环境下,利用互联网技术和信息技术整合现有虚拟仿真事件案例,嵌入理论教学,开发出一套结合
本文分析了气流在透平膨胀机喷嘴中的流动状况,指出实际气体在喷嘴喉部是达不到音速的,其临界截面将移到喉部之后。为此,作者相应地提出了在设计时应采用的计算公式。表1。参
2014年10月—2015年9月,采用样线和样点法对安徽淮南焦岗湖国家湿地公园鸟类资源进行了调查,分析鸟类群落多样性及其季节变化。在湿地公园内共记录到鸟类15目37科96种,留鸟41
近日,飞利浦推出了C7平板电脑。售价仅为2199元,搭载系统为Android2.3操作系统,另外还提供了各种各样的实用APP。
在改革开放的时代背景下,我国的社会工作以其较强的实务操作性伴随着经济发展、社会变迁、市场转型、城镇化发展的需求而产生。然而,社会工作专业人才队伍建设是一项较为浩大
《黄帝内经》阴阳理论在众多的阴阳相互关系的基础上强调以阳气为主导,认为阳气虚是导致人体疾病发生的重要原因。临床阳虚体质与众多疾病的发生密切相关,而肾阳是人体阳气之
<正>护理质量是医疗质量的重要组成部分,也是提高医疗质量的主题之一〔1〕。我国护理质量管理体系在医院的质量管理中相对比较完善,护理质量管理的目的、职责、程序以及控〔2
<正>阅读教学是初中语文教学的重中之重,可以说是我们初中语文课堂的主旋律。初中语文老师总是不太放心自己的学生,总觉得他们太小,还不能自主地去学习、探究,于是便挖空心思
幸存的非职业战队我初识loper=JS=是2008年9月。那时wNv刚在法国ESWC上经历了失魂落魄的惨败,而他却率领着一支新加坡华人CoD战队夺得了东南亚WGT08总决赛《使命召唤4》项目的