面向增值税发票的图像自动处理技术研究

被引量 : 0次 | 上传用户:stslayer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国内的增值税发票是重要会计计账及企业纳税凭证,具有严格控制的统一格式,并且广泛存在于企业间的交易往来当中。大中型企业的财务共享中心每日需要处理大量增值税发票,人工处理增值税发票效率低下,亟需自动化的增值税发票处理系统来降低处理成本并提高财务管理能力,存在项目需求。企业内部ERP实施具备了自动化处理增值税发票的硬件条件,而OCR等关键图像识别技术的成熟商业化以及大量图像处理和识别技术的发展使得增值税发票自动处理系统的实现成为可能。本文重点研究了实现增值税发票自动化处理过程中所需的多项图像处理技术,提出了一些极具针对性的应用技术及改进,并在企业的实际项目中成功地实现了增值税发票的自动化处理应用,取得良好的运行效果。本文论述的发票自动处理系统以批量方式从高速扫描仪获取发票及附件的高质量彩色图像,接着按色彩分割出多个分量并同时对原图和各分量进行二值化处理,从原图和表格分量中提取出发票的表格用于判断发票的类型,在对图像纠正偏斜后再按类型及表格结构裁剪出需要识别的文本子图用于OCR识别。在进行OCR识别时,同时使用多个不同的OCR引擎,并且结合业务数据对不同引擎的识别结果做校验。最终把通过校验的识别数据直接导入企业的业务系统以驱动相关业务,而对于未获通过的数据则告知职员进行编辑、确认。本文首先交代了图像处理的一些基础知识。针对印刷字符的识别问题,提出使用多个现有的异构OCR技术进行混合来实现字符的识别,并配合业务数据校验真伪的方案。接下来用实验对比研究了基于聚类的二值化方法和邻域自适应的二值化方法,并用基于聚类的方法改进了基于邻域自适应的方法,验证了经Kittler法改进的Sauvola法在发票图像二值化应用中的有效性。接着按发票的色彩特征提出了发票图像的色彩识别和分割方法。紧接着对已有的基于“有向单连通链”的表格线检测法进行改进,并在此基础上提取出发票表格用于类型识别及精细的图像处理等。为了对提取的表格进行类型识别,本文分别尝试了从距离模型和从有向图结构模型等两类匹配算法对表格类型进行识别,确认了Scott算法和Blondel算法的有效性,同时提出匹配偏离点的排除方法和匹配相似度的评估方法,并以此为基础给出发票自动分类的方法。另外,本文针对发票等文档图像从表格和文本两个方面都提出了准确的偏斜纠正方法用以对识别前的图像进行纠正。最后,本文综合各种图像处理技术和方法并结合软件开发技术把成果应用于项目实践,并展现了一个正在良好运行的系统实例。
其他文献
目的:探讨归脾汤加减治疗心脾两虚型频发室性早搏患者的临床效果。方法:将40例心脾两虚型频发室性早搏患者随机分为两组各20例,对照组仅使用普罗帕酮治疗,研究组在其基础上采用归
预应力钢筒混凝土管( P C C P) ,是一种大口径、高工压、长寿命的输水管道,具有100 多年的发展历史,在世界上被广泛地应用。我国通过吸收和引进,在许多工程上应用,今后将进一步得到应用和发
随着人们中国传统文化的发展及人民生活水平的提高,水杯这种普遍常见的生活用品,也逐渐产生自己的独特个性与更多的价值。而现有的水杯产品中,大多缺乏自身的特点。现在随着
中国是世界上出口陶瓷最早的国家,也是目前陶瓷世界出口量第一大国,近年来我国陶瓷出口对我国出口创汇的贡献越来越大。在国内逐渐形成了陶瓷的生产基地,成为带动当地经济的
有害细菌能够导致疾病的传播与感染,抗菌材料可以有效的遏制细菌的繁殖。抗菌材料的研究与开发意义重大。不锈钢是人类应用最广的金属材料之一,使其具备抗菌性能已成为抗菌材
《得配本草》是清代,浙江姚江(今浙江省余姚市)人,严西亭、施澹宁、洪缉庵共同编著的,是一部对单味中药及多味中药间配伍运用都有很深入研究的实用中药学专著。该书编纂于1761
<正>圆通"夺命快递"这一极端事件背后,暴露了行业内无序竞争、对加盟网点疏于管理、不按应急预案行事等诸多弊端。圆通公司加盟网点——湖北沙洋运通物流有限公司(以下简称沙
数控技术是近代发展起来的一种自动控制技术,是现代制造技术中最关键的环节。其数控插补技术是数控系统的核心技术,插补算法的优劣将直接影响到数控系统的加工精度和速度。自
介绍了我国水资源状况和水污染概况;阐述了以天然气为原料的氮肥企业产生的水污染源和水污染物的存在形式以及针对性单元治理方案;提出了在废水外排总出口设置固定床生化终端
介绍了我国煤气化技术的发展现状;论述了固定床间歇气化技术、恩德炉粉煤流化床气化技术、灰熔聚煤气化技术、壳牌煤气化技术、德士古水煤浆加压气化技术、四喷嘴对置式水煤