基于深度学习的表格文档图像数字化技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wjyai333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今社会,纸质文档仍是承载信息的重要方式之一,表格作为一种特殊的内容类型,提供了一种高度凝练的数据展示方式,在文档中占据着重要作用。表格的审核工作,如发票报销录入、医保报销核查、货单清点等,是一种繁复且易出错的工作,带来了巨大的人工成本。此外,在数字化进程的推动下,大量的纸质文档尤其是表格文档需要被数字化以便归档和日后检索。所以表格文档的数字化研究具有重要的经济价值。表格文档具有表格类型复杂多样等特点,使得表格文档数字化仍是一个具有挑战性的问题。本文聚焦于表格文档的数字化技术研究,在该领域的一些关键性问题上如表格结构识别等问题进行了深入的探索。对于表格文档图像的结构还原问题来说,图像方向矫正是否准确是影响表格结构识别结果优劣的重要因素之一。对于一张输入的扫描文档图像,其文字方向可能是任意的,算法需要判断出文档页面的方向并对其进行适当旋转矫正以使文本行方向水平同时表格线横平竖直,这样才能为后续的表格结构识别和文本识别打下良好基础。本文提出了一种结合深度学习和直线检测算法的文档图像矫正算法,能够利用文本级别的方向信息,实现对文档图片鲁棒、精确的矫正。表格结构识别是表格文档数字化中最具挑战性的任务。表格结构识别存在众多挑战,如:(1)表格类型多样,存在有线表格、无线表格等;(2)表格线型多样,如实线、虚线等;(3)表格存在背景干扰,如噪声、光线阴影、表格底色、水印、印章等;(4)表格存在复杂的单元格合并问题:如跨行合并、跨列合并等。在过去的几十年间,一些学者提出了很多表格结构识别方法,但大多只能处理模板固定或者结构简单的有线表格,且需要针对数据集的不同设置不同的参数,泛化能力差。本文提出了一个结合深度学习和传统图像处理的表格结构识别算法,能够适用于多种类型、多种线型的表格,相较于传统的表格方法具有还原精度高,设置参数少,泛化能力强等优点。本文提出了一个表格文档数字化系统,能够处理多种格式的表格文档输入,输出高可用性的表格识别结果。基于表格类型复杂的银行对账单数据集,本系统在表格结构识别环节可以达到平均96%的F-分数,在文本识别环节,本系统在可以达到98.5%的文本整体识别准确率,以及针对金额数据优化的99.4%的数字识别准确率,能大大节省表格文档数字化工作的人力成本。
其他文献
随着智能交通的需求,车联网系统是改善城市交通压力的一个重要突破点。其中车辆计数已经成为一个重要的问题,它可以用来缓解交通拥堵,提高交通灯的通行效率。城市规模的多摄像机车辆跟踪也是智能城市和交通管理中的重要任务。道路交通异常检测是计算机视觉的基础工作,在视频结构分析和城市交通分析中起着至关重要的作用。本文针对车联网环境下基于深度学习的路网交通优化研究,将主要对车辆计数、车辆跟踪和交通异常检测方法进行
目标定位,特别是多目标定位问题,一直以来都是信号处理领域内的重点问题,目标定位在雷达、声呐以及导航系统中都起着至关重要的作用,在射电天文学,地震学等领域中也得到了广泛的应用。近年来,目标直接定位(direct position determination,DPD)算法因其在某些条件下更加出色的性能,逐渐成为了目标定位算法中的研究热点。随着分布式无线传感器网络相关研究的不断深入,分布式算法可拓展性和
目标检测是指首先预设一组与任务相关的类别,然后使用算法检测出图像中可能存在属于预设类别范围的目标。它是目前计算机视觉领域最为核心的任务之一,作为上游任务对其下游任务有着积极与深远的影响。虽然目标检测从传统方法阶段到深度学习阶段的发展历史久远而且非常成熟,但是目标检测应用于特殊领域,比如水下目标检测、无人机目标检测等还具有巨大挑战。由于数据采集困难,相比现有大规模公开数据集,这些领域的影像的规模和内
对目标区域的监视或者搜索是多智能体系统的重要应用领域之一。区域覆盖算法作为多智能体系统的一种控制算法,决定着系统能否高效率的完成区域覆盖。因此,优化区域覆盖算法,提高区域的覆盖效率对多智能体系统的应用具有重大的意义。目前对区域覆盖算法的研究主要集中在:智能体的运动控制模型的改善和覆盖点规划的优化。但目前研究仍存在以下问题:(1)智能体难以同时考虑自身当前的覆盖状况以及邻居的覆盖状况来对覆盖点进行协
随着深度学习任务领域的细分和深入,神经网络的结构日益复杂。为了确保复杂模型的可靠性,对模型进行可解释性研究已经成为深度学习研究中不可或缺的重要环节。而生成对抗网络近年来在诸多领域有着广泛应用,包含但不限于风格迁移、语义分割、图像生成等计算机视觉领域,因而对生成对抗网络进行可解释性研究具有重要意义。但现有的基于生成对抗网络的可解释性研究仍存在着不少如模型不稳定、优化困难等问题亟待解决。在本文,我们主
水下无线传感器网络作为海洋勘测、数据收集、自然灾害预测的重要设施之一,广泛应用在水下领域。水下传感器节点定位作为水下无线传感网在各领域的应用基础而备受关注。现如今,由于复杂的水下环境,水下节点定位仍面临节点定位率低、时间同步、定位精度差和节点移动性等诸多挑战。因此,基于水下无线传感器网络的节点定位算法极具研究价值和意义。本文首先介绍了水下无线传感器网络的网络结构以及各组成部分功能、基于水下无线传感
近年来,标准化考场的建设获得了广泛的关注。如何将人工智能技术引入标准化考场当中具有非常重要的实际意义。当前,依靠人工查看考场监控视频与监考官现场记录作弊行为相结合的监考方式人力成本巨大,且极其容易发生遗漏的情况。本文针对考试场景中可能出现的各种作弊行为,研究了基于深度学习的考场作弊行为识别方法,构建考场作弊行为数据集,结合边缘位移提取、运动特征增强与长时时序建模,解决考试场景下作弊行为识别问题。本
随着大数据驱动的人工智能技术飞速发展,机器学习技术在现实生活中被广泛应用。过去机器学习模型常采用集中式训练的方法,该方法需要在中央服务器上搜集并存储大量优质数据。现实中由于行业竞争、隐私安全和法规限制等诸多原因,数据的集中搜集和存储遭受着极大的限制。联邦学习作为一种新型分布式机器学习范式,能够在保障用户数据安全的同时充分利用设备数据。联邦学习能够在保护用户隐私的同时使得大量设备协同训练机器学习模型
红外目标检测是红外侦查、智能安防、夜间辅助驾驶等领域的基础任务。传统的红外目标检测算法依赖人为设计的图像特征,存在检测精度不佳、算法迁移能力较差等问题。深度学习技术拥有端到端的特征表达能力,能够提取具有鲁棒性的语义特征,因此,开展基于深度学习的红外目标检测方法研究对于提高目标检测精度和模型泛化能力具有积极意义。深度学习目标检测算法利用颜色、纹理、几何等浅层视觉特征构建高层次语义,然而红外图像边缘模
抽烟和打手机在现在的日常生活随处可见,人们时时刻刻都会有这样的需求。众所周知,抽烟从来都不是一个好的行为与习惯,不仅在影响自身身体健康的同时还影响着身边其他人的身体健康。除此之外,抽烟也有可能因为人们的疏忽与大意造成严重安全事故,尤其是在具有安全隐患的公共场所。而对于打手机而言,则成了人们日常生活中不可或缺的通信交流方式,因为手机的产生,给人们的生活带来了极大的便利并且节省交流的成本。但是在一些特