论文部分内容阅读
表格识别是当前图像识别领域中的一个重要研究课题,由于信息化的普及和表格数据的大量出现,表单数据自动处理技术已经在很多行业和领域中取得应用。表格图像识别技术不仅可以提取表格结构,与OCR结合还可以对表格数据进行自动处理;通过模板匹配,可以进行证件验证。本文设计了一个表格描述模型,根据模型要求,设计实现了一个表格识别方法,通过该方法能够将表格图像转换成规定格式的模型。在表格模板的基础上,设计实现了一个表格输出和数据提取的系统。本文分析了几种常见的表格结构的描述方式,通过对比选择了XML作为表格模型的描述语言。根据本文研究的表格特征,提出了一种表格模型。该模型具有很好的复用性,而且对表格结构的描述清晰、简单,利于对表格模板进行二次开发利用。本文对表格识别的方法进行了分析,一般分为图像预处理和表格特征提取两部分。图像预处理的目的是使表格特征更突出,更容易识别,降低表格特征识别的时间和空间复杂度。根据本文所研究的表格特征,表格预处理可分为图像灰度化、图像二值化、图像的倾斜校正和图像细化四个步骤。经过预处理后的图像,明显分为黑白两种颜色,表格线只有单像素宽,达到了降低表格特征识别时间和空间复杂度的目的。根据模型定义的要求,表格特征识别需要识别出表格的单元格和嵌套表格,为了实现这个目标需要首先提取出表格线。每一种表格特征的识别本文都实现了一个算法,并对算法和最终的结果进行了分析。在表格特征识别的基础上,在研究过程中还加入了一些逻辑特征的识别。这些逻辑特征识别的加入,进一步提高了表格识别的智能化程度。表格逻辑特征的识别包括了文字的识别、文字特征的识别和单元格逻辑关系的识别。其中单元格之间的逻辑关系的识别对表格图像有一定的特殊要求,需要对不同类型的单元格利用颜色等特征进行区分。本文通过对表格模型的解析,实现了表格模型与业务数据的结合,大大节省了程序开发的时间。在实际应用中,与OCR技术结合,可以实现业务数据的提取。通过对XML解析方式的分析,结合本文采用的开发平台,选择了DOM4J这种灵活高效的解析方式。在模型生成过程中,提出了一种表格物理结构的描述方式。在具体业务开发时,业务数据通过该物理描述结构与表格模板进行数据交换;本文提出了一种模型解析器的设计方法,通过模型解析器将模板解析成为平台相关的模型,结合具体需求,实现模板的二次开发利用。随着模板的大量出现,本文还提出了一种模板库的管理方式。