文档图像表格提取算法研究

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:sweetpingping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格作为一种非常重要的结构化页面元素,因其直观精简的信息表达优势,在文档图像中出现的频次日益增加。通过对文档图像中的表格进行提取与解析,人们可以更加准确地掌握文档中所包含的信息以及表格中各字段之间的联系。因此,针对表格提取的算法研究尤为重要。由于文档的种类以及表格的样式千变万化,且影响表格结构的干扰因素较多,从而导致表格提取算法很难精确地从文档中提取出表格结构,对干扰的鲁棒性也较弱。针对上述问题,本文从提升对干扰项的鲁棒性以及提高表格提取准确率两个方面对表格提取算法进行了深入研究。主要研究工作如下:(1)针对表格框架线段提取受到干扰的问题,提出三种策略。其一,为解决畸变文档图像的校正问题,本文利用图像中表格框架线特征信息,结合使用仿射及透视变换方法,以实现对文档图像的偏斜角检测及校正。其二,为消除印章对表格提取带来的干扰,提出一种基于RGB颜色模型的印章去除算法,通过设置R、G、B各通道分量灰度值的范围并建立三者之间的约束关系,去除文本图像中红、蓝色印章干扰。其三,为避免污点区域对表格提取造成干扰,提出一种基于形态学处理的污点修复算法,利用污点与有效结构特征在区域面积上的差异性消除污点干扰。(2)针对长线段出现断裂需拼接成表格框架线段的问题,提出一种基于共线程度计算的直线拼接算法,并首次提出共线程度(Probability of Belonging to the Same Line,PBSL)概念。首先,利用霍夫变换(Hough Transform,HT)检测表格框架线。然后,结合共线程度值以及间距参考值对线段之间能否拼接进行判断,并根据判断结果拼接线段。最后,删除重复线段,得出文档内横、纵向表格线段检测结果。(3)针对表格结构重建中存在的问题,提出一种基于结构分析的干扰线检测算法,对干扰线进行分类别检测以更全面地剔除表格框架线段中的干扰线。根据表格的结构特点,最大程度地修补缺失的表格结构线段,进而得到完整表格。通过分析在数据集上的实验结果发现,本文提出的表格提取算法在横、纵直线检测的精度上较LSD分别提高了19.16%、13.14%,较FLD分别提高了24.50%、20.17%。对数据集中清晰图像进行表格提取时,准确率达96.81%,对有畸变干扰、印章干扰的图像进行表格提取时,准确率分别达92.94%、87.58%。实验证明,本文所提出的表格提取算法对图像中表格线段的检测能力更强,在对干扰的鲁棒性以及表格提取准确率方面均取得了显著提升。
其他文献
电化学储能技术以其灵活安装性及快速响应性而得到广泛应用,其中预制舱式锂离子电池储能电站为目前的主流建设形式。然而由于电池材料固有的可燃性,在异常运行时存在热失控甚至爆炸风险,严重威胁储能电站的安全运行。现阶段相关研究主要局限于小体量电池的热失控特性,对预制舱式储能电站的气体爆炸特性研究尚处于探索阶段。本文从储能电池模组热失控实验及气体爆炸实验分析出发,在实验以及真实储能场景的基础上建立气体爆炸仿真
学位
两个相互接触的物体发生相对运动时,会在接触表面上形成一种阻碍运动的作用力,这种力被称为滑动摩擦力。摩擦力在日常生活中会产生不可避免的能源损耗并对经济产生影响,阐述影响摩擦力的基本原理并进行有效调控是物理学中最重要的问题之一。宏观尺度上摩擦力可由达芬奇-阿蒙顿定理所描述:摩擦力F随着法向压力N的增大而增大,即F=μN。然而,当研究尺度进入纳米领域后,摩擦力出现了许多神奇的现象,如超润滑(μ≈0)、负
学位
本研究以28种观赏葫芦种质为材料,运用形态学标记和RAPD分子标记,对其进行了遗传亲缘关系鉴定。同时研究了‘新疆大葫芦’的组培快繁技术,为资源保存、新种质培育、转基因技术打下基础。研究结果如下:1.形态学分析(1)根据观赏葫芦形态学性状观察标准,对形态学性状的遗传多样性参数统计结果显示,25个形态学性状的平均变异系数为47.01%,每个性状的变异系数均大于21%,表现了丰富的多样性。其中突出的是果
学位
我国乡村生态旅游资源丰富,而乡村生态旅游资源价值实现是乡村振兴的重要途径之一。目前我国乡村生态旅游资源价值实现面临基础设施建设滞后、生态恢复补偿机制不健全、生态资源开发所需资金匮乏等瓶颈。为突破乡村生态旅游资源价值实现瓶颈,可将政府和社会资本合作(PPP)模式引入乡村生态旅游资源开发。借助PPP模式,政府在乡村生态旅游资源恢复、基础设施建设、金融支持政策、乡村旅游资源宣传推广等方面发挥应有的作用,
有机太阳能电池具有轻量化、可柔性加工、成本低廉等特性,是未来有效利用太阳能的途径之一。阳极界面层是有机太阳能电池的重要组成部分,是提高有机太阳能电池的光伏转换效率的关键。本论文首先设计合成了具有π-π共轭主链和离子侧链结构的p-CPE-1、p-CPE-2、p-CPE-3三种共轭聚电解质阳极界面层。本论文通过质子酸掺杂的方法来调控三种共轭聚电解质阳极界面层材料的离子侧链与主链间的偶极化作用,使共轭聚
伴随着工业化的发展,天然气,煤炭和石油的大量使用所引起的环境污染问题日益严重,可持续新能源技术的发展迫在眉睫。而目前在电子设备,电动汽车以及商用电池领域广泛应用的锂离子电池仍面临着金属锂价格昂贵、资源有限、因有机电解液有毒而造成的难以回收、环境污染以及因锂枝晶的产生而引起的安全隐患等诸多问题。因此,对低成本及高安全性的新能源技术的发展极为重要。水系锌离子电池(ZIBs)因其高能量密度,高功率密度和
学位