非规整表格自动识别方法设计与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:vl244
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前对于文档图像上的文字信息的识别已相对成熟,市面上已有较多的产品对文档图像上的字符有着不错的识别结果,但是对于文档中的表格图像的识别仍需进一步完善。当表格存在扭曲变形以及光照不均等情况时,可能并不会得到理想的识别结果。本文对国内外的表格识别技术进行了分析,主要对低质量文档图像的二值化以及表格图像的几何形变校正等内容进行了研究,最终实现了一套鲁棒性较高的表格识别算法。本文主要完成的主要工作如下:1)对文档图像的二值化算法进行了研究。针对文档图像上可能存在的光照不均等问题,提出了一种基于背景估计的二值化算法。通过笔画宽度变换估算笔画宽度,根据笔画宽度确定二值化处理过程中所应用的局部窗口大小。对背景补偿后的图像利用改进的局部二值化算法与全局阈值化结合的方法进行处理。实验结果表明,该算法能在一定程度上抑制背景噪声,使得前景与背景类别划分正确。2)对表格图像的扭曲校正算法进行了研究。本文提出了一种基于统计的表格线提取算法,通过对表格行列线的拟合对提取的线段进行修正。利用线段之间的交点对表格图像进行透视变换,再通过表格边框拟合线进行扭曲校正。3)根据表格上的行线与列线之间的交叉关系,得到表格的所有特征点集合。根据表格特征点之间的关系,确定表格每个单元格的顶点坐标以及顶点特征。4)将文档图像上的表格转换为可编辑电子表格。将所有的行与列进行排序,将不相连但属于同一行/列或近似属于同一行/列的表格线视为同一行/列。判断每个单元格的四个顶点所属的行与列,将跨越多行或多列的单元格进行合并,得到表格的框架结构,结合单元格内识别的字符将表格信息写入excel中,实现表格的重构。本文在以上工作的基础之上,实现了基于图像的表格识别系统,设计了简洁、友好的交互界面。实验表明,本系统能对发生扭曲变形的表格图像的识别率达到了85%,高于现有的部分表格识别商业软件。
其他文献
古诗群文阅读不仅能帮助学生深入感知古诗的内涵,也能够帮助学生提升写作能力。以《春望》等诗的写作手法为例,将古诗教学与写作教学相结合,可以通过古诗群文阅读优化写作教学的具体路径,包括:合理设置议题,激发学生兴趣;分析触景生情,表达真情实感;解读移于物,书写真我性灵。
随着科技的发展,人们对电子设备的便携性、可穿戴性等要求日渐提高,柔性电池已逐渐应用于可穿戴电子设备中,如智能手环等。剪纸结构锂离子电池是一种通过独特的剪纸结构来实现电池可拉伸性、柔性的新型电池。然而,锂离子电池在充、放电过程中由于锂离子的脱嵌、极化效应等,会不可避免地产生大量的热量。倘若产生的热量不能及时地排出,滞留在电池内部,将导致电池充、放电性能衰减、加速老化等危险情况。因此,电池热管理系统被
Brunn-Minkowski理论研究的核心问题之一是凸体的刻画问题,它是偏微分方程和凸几何分析领域中的交叉课题,其在数学、信息论等多个学科中有着重要的应用。Christoffel-Minkowski问题是Brunn-Minkowski理论里一个非常重要的研究问题,即如何刻画凸体各阶曲面面积测度。在凸几何中,Christoffel-Minkowski问题是:对于1≤k≤n-1,在何种充要条件下,给
对6000系铝合金而言,自然时效对人工时效的作用一直存在争议。传统时效温度(175℃)下,当Mg和Si合金总含量高于1wt.%时,自然时效会抑制合金人工时效的峰值硬度(消极作用)。而当Mg和Si合金总含量低于1wt.%时,自然时效将会使合金人工时效的峰值硬度增加(积极作用)。但是对Mg和Si合金总含量高于1 wt.%合金,高温将会扭转自然时效对人工时效的消极作用。而相关机理还不明确,亟待深入研究。
短波频段的研究和应用越来越广泛,短波通信在现代通信特别是军事通信领域占据重要地位,已经成为一种不可或缺的通信方式。基于短波无线通信技术发展的需求,需要设计合适的短波通信系统来模拟实际的短波通信环境,因此本文基于现有宽带短波信道模型提出一种改进的信道模型仿真方案和仿真实现模型的验证方法,并建立可视化界面,开展相应的信道模拟和仿真工作。首先,本文对短波信道的物理传播特性和统计特性两个方面进行分析和讨论
破解党建与业务工作"两张皮"问题,使党建与业务工作融合发展,是新时代必须认真研究解决的重要课题。客观分析"两张皮"的表现形式、产生原因,总结成功经验,从理论与实践相结合的角度,提炼有效方法,创新工作举措,探索完善破解党建与业务工作"两张皮"的教育学习、工作联动、引领激励、督导督查、考核评价、干部选拔任用等一整套较为完备的制度,构建党建与业务工作深度融合的长效机制,既是理论课题,更是实践课题。要找准
近年来,智能电网的大力建设推动了智能电表的快速发展,对智能电能表的通信功能、存储功能、稳定性提出了更高的要求。国际法制计量组织针对有功电能表制定了IR46新型技术文件。IR46标准要求电能表的法制计量功能与管理功能的软件需分离,非计量部分的程序升级不能影响计量部分的稳定工作。本文根据IR46标准的理念,设计了一款智能双芯电能表,通过物理分离方式,采用两块MCU,将电能表的法制计量功能与管理功能分离
现代信息化战场上,由于敌我双方使用大量的电子信息装备,加上民用信息设施的快速增长,导致战场空间中的电磁信号十分密集;同时战场复杂未知的地理环境形成的无线传输信道,导致信号出现各种难以估计的衰落。这两方面因素构成了十分复杂的动态电磁环境。移动无线信道特性对移动通信系统性能具有重要影响,移动信道建模和仿真对移动通信系统的研发具有重要意义。因此,对移动信道建模与仿真进行研究,具有重要的理论意义和实际应用
近年来,具有体积小、效率高等众多优点的永磁同步电机(PMSM)逐渐被应用于各行各业中。然而,受到逆变器非线性特性和空间磁链谐波的影响,电机驱动系统中产生了谐波分量。其中,电流谐波会引起电机的转矩脉动;反电动势谐波会导致无位置传感器控制系统中观测的转子位置出现误差。为了抑制驱动系统中的谐波分量,提高系统的控制精度。本文在传统二阶广义积分器的基础上,提出了两种新型广义积分器,并将其应用于PMSM驱动系
金属手机外壳表面缺陷的检测是手机成品质量检测中外观检测的重要检测环节,由于金属手机外壳在生产过程中工艺复杂,不可避免地会在表面上产生缺陷,为了保证产品质量,必须进行有效的质量检测与筛选环节。传统的外观质量检测环节是采用人工检测,人工检测的方式存在着检测效率低、劳动成本高、检测标准不一等问题,越来越难满足现代工业化生产对产品质量的高标准要求。近年来,随着机器视觉应用到自动化生产中的各个方面,技术不断