基于模型驱动的表格识别的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ivy1128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格识别是当前图像识别领域中的一个重要研究课题,由于信息化的普及和表格数据的大量出现,表单数据自动处理技术已经在很多行业和领域中取得应用。表格图像识别技术不仅可以提取表格结构,与OCR结合还可以对表格数据进行自动处理;通过模板匹配,可以进行证件验证。本文设计了一个表格描述模型,根据模型要求,设计实现了一个表格识别方法,通过该方法能够将表格图像转换成规定格式的模型。在表格模板的基础上,设计实现了一个表格输出和数据提取的系统。本文分析了几种常见的表格结构的描述方式,通过对比选择了XML作为表格模型的描述语言。根据本文研究的表格特征,提出了一种表格模型。该模型具有很好的复用性,而且对表格结构的描述清晰、简单,利于对表格模板进行二次开发利用。本文对表格识别的方法进行了分析,一般分为图像预处理和表格特征提取两部分。图像预处理的目的是使表格特征更突出,更容易识别,降低表格特征识别的时间和空间复杂度。根据本文所研究的表格特征,表格预处理可分为图像灰度化、图像二值化、图像的倾斜校正和图像细化四个步骤。经过预处理后的图像,明显分为黑白两种颜色,表格线只有单像素宽,达到了降低表格特征识别时间和空间复杂度的目的。根据模型定义的要求,表格特征识别需要识别出表格的单元格和嵌套表格,为了实现这个目标需要首先提取出表格线。每一种表格特征的识别本文都实现了一个算法,并对算法和最终的结果进行了分析。在表格特征识别的基础上,在研究过程中还加入了一些逻辑特征的识别。这些逻辑特征识别的加入,进一步提高了表格识别的智能化程度。表格逻辑特征的识别包括了文字的识别、文字特征的识别和单元格逻辑关系的识别。其中单元格之间的逻辑关系的识别对表格图像有一定的特殊要求,需要对不同类型的单元格利用颜色等特征进行区分。本文通过对表格模型的解析,实现了表格模型与业务数据的结合,大大节省了程序开发的时间。在实际应用中,与OCR技术结合,可以实现业务数据的提取。通过对XML解析方式的分析,结合本文采用的开发平台,选择了DOM4J这种灵活高效的解析方式。在模型生成过程中,提出了一种表格物理结构的描述方式。在具体业务开发时,业务数据通过该物理描述结构与表格模板进行数据交换;本文提出了一种模型解析器的设计方法,通过模型解析器将模板解析成为平台相关的模型,结合具体需求,实现模板的二次开发利用。随着模板的大量出现,本文还提出了一种模板库的管理方式。
其他文献
随着信息科技的飞速发展,人们对于信息的安全性需求变得越来越迫切,加密解密是信息安全中的关键问题。然而加密算法安全性的提高和数据集规模的增长降低了暴力破解的速度和可行
当前我国各级政府在“中国电子政务上程”号召下,都存进行信息化网络建设和办公自动化业务改造,实现政府各级部门之间、政府与政府之间、政府内部的信息网络互联互通,在强化政务
双目立体视觉基于视差原理,主要研究如何从(两幅或者多幅)图像里获取场景中物体的距离(深度)信息。其中一个重要研究问题是立体匹配,即如何在多幅图像中确定对应点。随着大量
虚拟校园是虚拟现实技术在现代教育领域的重要应用,虚拟现实是一个由计算机产生的三维立体空间,用户可以与这个空间中的对象交互,观看以及操作,并可在空间中自由移动,进而产生身临
如何有效分割复杂场景图像,一直是计算机视觉领域的研究热点之一。在分割含有未知噪声及灰度分布不均匀或异质的复杂场景图像时,目前很多分割算法要么无法进行精确分割,要么分割
随着Web搜索日益被人们接受和使用,关键字查询成为了查询文档和网页的最简单、最流行的信息检索技术。由于应用需求的推动,关系数据库上的关键字查询(KSORD)成为近年的热点研
生物特征识别技术是建立在对人的生物特征辨别的基础上的识别技术。基于指纹纹线形态的终生不变性及唯一性,指纹识别技术成为最安全最可靠的生物特征识别技术。自动指纹识别
随着互联网(Internet)的高速发展,在Web信息呈现几何级数增长的情况下,人类的信息来源得到了极大的丰富。在文献管理方面,如何能够快速准确的对文献信息进行收集和管理成为学
近年来,社交网站蓬勃发展并成为当今社会的一个热点。尽管这些网站给用户提供了一系列吸引人的特征,但是遗憾的是,它们倾向于暴露用户的隐私。在本论文中,为了解决社交网络中
移动对象数据库技术是计算机科学的新兴研究领域,主要用来管理随时间连续变化的移动对象,有着广泛的应用需求。随着计算机网络、无线定位等技术的快速发展,移动信息服务越来