表格识别中的算法改进

来源 :上海市计算技术研究所 | 被引量 : 1次 | 上传用户:baby3911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,越来越多的企业人力资源开始实施无纸化管理,员工个人信息,薪酬情况都会以数据流的形式录入计算机。但是涉及到一些跨机构的协同服务,以及受制于保密等条件的。人工录入显然完全无法满足业务时效性的要求,所以纸质表格文档的自动录入越来越重要,表格的检测和信息的识别就尤为重要。我们需要更为有效的方法来检测表格,对检测的结果应提高标准。本文在以往表格的检测和识别的文献的基础上,对表格框线的检测及去除和表格的还原技术进行了研究。本文介绍了表格识别的大体流程,即表格框线的检测,表格的识别和表格框线的去除。在表格框线的检测中,本文分析原来的的霍夫曼框线检测算法,发现了霍夫曼算法程的运算量较大,在图像像素点较多的情况下运算效率较低,霍夫曼变换的时间和空间复杂度较高的缺点。同时作者又分析了传统的有向单连通链的算法,发现传统方法中有向单连通链的查找和合并算法复杂度较高,本文提出了有向单连通链改进算法,在查找链的方法上我们采用从左上角表里黑像素,分析6种情况来判断是否继续扩展遍历,并且对查找出来的链进行筛选过滤,坡度较高的和链的长度较小的都被过滤掉,这一定程度上降低了后面合并的运算量。在有向连通链的合并上,作者采取通过直接计算两个单连通链中游程中心点的纵坐标平均值来确定同线距离,有效的降低了原来的运算量,最终的实验结果也是在用时上有了一定的缩短。在对图像检测框线伪直线处理中,本文对直线质量Q提出了评价的标准,传统的伪直线去除方法提出了块比较法。块比较方法的核心思想是比较通过合并单个连接链得到的表格框线图与表的原始图像进行对比。由于阈值需要自己设定,有人为的干扰在里面,使得这种剔除不能剔除较小的伪直线。对比本文,提出质量评价标准后,保留Q大于0.8[1]的直线,一般低于这个数值的都是文字留下的伪直线。实验通过这个方法,伪直线进一步被有效剔除。在研究和分析目前的表格还原技术后,由于表格大都是黑白图像,并且结构清晰,本文决定采用图像相似度匹配的方式中的基于感知哈希的相似度算法来恢复表格结构。最终在表格框线的去除中,本文介绍了三种字线交叉情况,以及字线分离后的字符修整。最终在实验结果中,应用了本文的直线检测方法后,直线检测的用时和正确率有一定的提升。
其他文献
目的:通过分析腹膜假性粘液瘤(pseudomyxoma peritonei, PMP)的影像学特征,探讨其与上皮膜抗原(epithelial membrane antigen, EMA)的关系。方法:回顾性分析2014年3月至2018
会议
混凝土是一种脆性材料,其变形能力差,当发生剪切破坏时,极具突然性,属于典型的“一裂即坏”。在梁柱节点、剪力墙及隧道初砌结构等易发生剪切破坏的部位都需要混凝土具有更好
桥梁与隧道工程作为连接地上与地下城市道路的纽带,为人们出行提供了新的便利。但在隧道工程修筑过程中难免会对既有桥梁桩基产生影响,因此在隧道施工前对桥梁桩基变形的预测研究显的尤为重要。本文着重探讨了双线盾构隧道施工过程中对地表及桥梁桩基的位移变化影响,并对桩基内力变化情况进行了研究,具体内容如下:(1)阐述了现有隧道施工引起的地表、建筑物及桥梁桩基的变化规律,并在此基础上探讨了盾构法隧道施工的的工作原
城市交通运输网络稳定、持续的正常运行对于城市活动的进行及国民经济的稳定增长起着不可替代的作用,城市交通运输网络内部或外部的任何异常事件都有可能对网络中的节点造成严重的破坏,并且可能由此引发失效持续传播,最终对整个城市交通运输网络造成严重的破坏,使得城市交通运输网络功能正常运行受阻,进而影响城市中各方面的正常活动。因此,分析和研究城市交通运输网络中级联失效现象传播的机制和规律,合理建立城市交通运输网
海洋管道是海洋油气输运的生命线,在油气资源开发中占据重要地位。海洋管道长期受海水、输送介质等的腐蚀作用,在管壁上易形成各类腐蚀坑。腐蚀坑的存在会导致油气泄露,严重
水乃万物之本,它不仅是人类赖以为生的物质基础,还是保证社会可持续发展的重要自然资源。寿光地区作为我国重要的蔬菜种植基地之一,在日常生产生活中需要开采大量的地下水来满足用水需求。然而,在地下水开采过程中,由于缺乏科学的地下水调控以及合理有效的管理措施,导致寿光地区地下水的不合理开采和资源浪费,出现了诸如地下水水位不断下降、水质污染等环境地质问题。为了解决寿光地区地下水开采所带来的水资源危机和保证城市
随着陆地上的资源逐渐枯竭,许多石油公司纷纷把目光转向海洋,而海洋可控源电磁勘探(Marine Controlled-Source Electromagnetic,MCSEM)作为一种新兴地球物理勘探方法,能够有
背景和目的:高脂血症(hyperlipidemia)是多种心血管疾病的首要独立危险因素,我国人群通常以总胆固醇(total cholesterol,TC)或低密度脂蛋白胆固醇(low density lipoprotein-cholesterol,LDL-c)水平升高为特点。尽早积极主动地控制血脂水平(特别是TC和LDL-c水平)对于心血管疾病的防治具有重要意义。CCDC92基因定位于血脂异常和冠
体系结构在软件开发过程中十分重要,其设计成果好坏将直接影响到软件性能。因此,有必要在设计完成后组织专家评阅成果质量,在此过程中尽可能消除其中不合理的部分,从而为后续开发工作的顺利开展奠定基础。经调研发现,现阶段市场上缺乏可供专家使用的软件体系结构评阅工具。为解决这一问题,本文以成熟的Do DAF软件体系结构框架为基础,结合实际应用需求开发出一套Do DAF体系结构设计模型专家评阅系统,供系统管理员
上转换发光材料具有可协调发光、以近红外光激发等诸多优点,近几十年来一直受科学家们的广泛关注。基质材料作为主体部分对上转换材料的发光效率有较大影响。与稀土化合物相