论文部分内容阅读
表格是一种结构紧凑、格式良好、便于检索与排版的数据组织与表达形式,在各类文档中被广泛使用。针对普通文档图像的表格版面结构自动定位与分析成为近年来文档图像分析领域(DIA)的研究重点。由于表格结构的多样性和复杂性,以及现实世界大量噪音对图像质量的影响,表格版面结构的自动定位与分析涉及许多公开性难题(如结构描述、系统搭建、自动评测等),现有技术水平难以满足一般应用领域的性能需求。本文面向一般应用,基于对前人研究成果的总结,结合丰富实践经验。创造性的提出了通用表格版面结构描述模型,对版面结构与逻辑结构进行独立描述,并建立了两者的直接映射关系。使用简单区域集合描述表格版面结构,使用网格矩阵对版面信息进行高度抽象和表达。使用单元格链表保存逻辑数据。通过对图像信息合理的分层描述和提取,有效克服了图像质量低下造成的处理困难,满足了一般领域大规模应用的性能要求。本文首创提出基于线条交点矩阵进行表格结构分析自动评测的方法,将等价于“图匹配”的难解问题转化为二维矩阵局部最优匹配的有限计算问题。这种方法不仅能够对局部处理结果进行定量的评测和统计,同时能够利用全局特征进行错误的定性分析。这种新颖的评测机制为表格结构自动分析系统的升级、应用和推广提供了重要的评测保证。本文基于“以系统优势体现机器智能”的思想,通过对算法流程的合理架构,实现了功能稳定、性能优异的表格版面结构自动处理系统,并将其成功嵌入到成熟的DIA系统中。基于实际图像样本集的测试数据证明了系统运行的稳定性和处理性能的高效。