论文部分内容阅读
国内的增值税发票是重要会计计账及企业纳税凭证,具有严格控制的统一格式,并且广泛存在于企业间的交易往来当中。大中型企业的财务共享中心每日需要处理大量增值税发票,人工处理增值税发票效率低下,亟需自动化的增值税发票处理系统来降低处理成本并提高财务管理能力,存在项目需求。企业内部ERP实施具备了自动化处理增值税发票的硬件条件,而OCR等关键图像识别技术的成熟商业化以及大量图像处理和识别技术的发展使得增值税发票自动处理系统的实现成为可能。本文重点研究了实现增值税发票自动化处理过程中所需的多项图像处理技术,提出了一些极具针对性的应用技术及改进,并在企业的实际项目中成功地实现了增值税发票的自动化处理应用,取得良好的运行效果。本文论述的发票自动处理系统以批量方式从高速扫描仪获取发票及附件的高质量彩色图像,接着按色彩分割出多个分量并同时对原图和各分量进行二值化处理,从原图和表格分量中提取出发票的表格用于判断发票的类型,在对图像纠正偏斜后再按类型及表格结构裁剪出需要识别的文本子图用于OCR识别。在进行OCR识别时,同时使用多个不同的OCR引擎,并且结合业务数据对不同引擎的识别结果做校验。最终把通过校验的识别数据直接导入企业的业务系统以驱动相关业务,而对于未获通过的数据则告知职员进行编辑、确认。本文首先交代了图像处理的一些基础知识。针对印刷字符的识别问题,提出使用多个现有的异构OCR技术进行混合来实现字符的识别,并配合业务数据校验真伪的方案。接下来用实验对比研究了基于聚类的二值化方法和邻域自适应的二值化方法,并用基于聚类的方法改进了基于邻域自适应的方法,验证了经Kittler法改进的Sauvola法在发票图像二值化应用中的有效性。接着按发票的色彩特征提出了发票图像的色彩识别和分割方法。紧接着对已有的基于“有向单连通链”的表格线检测法进行改进,并在此基础上提取出发票表格用于类型识别及精细的图像处理等。为了对提取的表格进行类型识别,本文分别尝试了从距离模型和从有向图结构模型等两类匹配算法对表格类型进行识别,确认了Scott算法和Blondel算法的有效性,同时提出匹配偏离点的排除方法和匹配相似度的评估方法,并以此为基础给出发票自动分类的方法。另外,本文针对发票等文档图像从表格和文本两个方面都提出了准确的偏斜纠正方法用以对识别前的图像进行纠正。最后,本文综合各种图像处理技术和方法并结合软件开发技术把成果应用于项目实践,并展现了一个正在良好运行的系统实例。