基于视觉特征的多类型表单关键信息识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lsssml1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际贸易的发展与信息爆炸时代的到来,表单由于其简单直观的特点,在交通物流领域得到了广泛的应用,同时在金融和医疗等领域也变得越来越不可或缺,如物流表单、收据和简历等。随着各行各业的智能化与数字化改革,迫切需要实现多类型表单的自动化抽取,将表单中的信息保存成结构化数据便于留存与检索。以交通物流表单为例,在实际应用中,国际物流表单大多样式复杂且种类繁多,而目前投入应用的表单关键信息抽取算法通常只针对固定格式或固定领域的表单,仍然没有可靠的技术手段能够实现多类型复杂表单的关键信息识别。因此,本文通过分析交通物流多类型表单的特点,设计了一个多类型表单关键信息识别系统。论文主要开展的工作如下:(1)由于表单大多以扫描版图片的形式存在,因此本文研究了图像文本检测与文本识别算法。结合表单图片中文本的特点,对文本检测与文本识别的网络结构与算法流程进行了分析比较。(2)基于对多类型表单视觉特征的分析以及对文本检测网络的研究,本文设计了一个多任务学习网络,命名为Multi-TFC(Multi-task Network for Text Detection,Frame Extraction and Form Classification),通过该网络可以同时完成表单分类、框架提取和文本检测三个子任务,且可以只对网络的表单分类分支进行训练,在短时间内实现新类别的快速增加。实验证明该网络能够在保证准确率的情况下,更加快速地完成多个子任务。(3)论文针对已知类别的表单,提出了基于相对位置模板的关键信息抽取算法,能够高效准确地实现关键信息的抽取。针对未知类别的表单,本文提出了基于关键信息关联对匹配的通用关键信息抽取算法,解决了常见算法通用性差、不可拓展的问题。(4)论文建立了多类型表单关键信息识别系统。该系统完成了从多类型表单图片到结构化关键信息的全流程。本文建立了物流领域运输表单数据集,实验证明该系统在物流表单数据集上的表现良好、通用性强,在实现多类型表单关键信息抽取的任务上具有可行性。图54幅,表10个,参考文献64篇。
其他文献
随着国家稳步实施“走出去”战略以及持续推进“一带一路”倡议,中国建筑企业在境外经营规模持续扩大。然而,在实现国际业务快速增长的同时,部分企业也面临着因文化差异、制度距离等因素产生的管理挑战,一方面严重影响项目的利润空间,另一方面也对企业在海外可持续发展造成阻碍,因此,提升国际工程的属地化管理水平、保证企业在境外顺利经营的需求已迫在眉睫。作为目前境外主要推行的项目管理模式之一,属地化管理既保证了中国
2019年12月爆发的新冠肺炎疫情对我国经济和居民生活产生了巨大的影响,疫情期间人们外出受到限制,因此将无法实现的线下需求转移到了线上,使得我国快递业务量产生了较大的变化。本文在新冠肺炎疫情的背景下,分析了新冠肺炎疫情确诊人数在我国大陆31个省份分布的时间和空间特征,以及在新冠肺炎疫情前后我国快递业务量的差异。在此基础之上,考虑将新冠肺炎疫情的影响因素加入到对我国大陆快递业务量的影响分析中,弥补了
随着我国经济的高速发展,城镇化的进程无形之中被加快,越来越多的人群奔向城市,尤其像北京这样的超一线城市必定会成为大量人群聚集地之一,北京市商品房的价格持续涨高,刚毕业的大学生和刚进城的中低收入者家庭无法承担起高昂的购房费用,为了实现“居者有其屋”的目标,提高保障性住房供给规模成为北京市亟待解决的民生问题。丰台区作为北京的六大主城区之一,在六大城区中丰台区的经济发展处于中等水平,选择丰台区作为案例研
电商平台拥有丰富的商品种类和便捷的购物方式,使消费者更愿意选择足不出户,通过手机APP或电脑挑选心仪商品的消费方式。随着科技的发展和人们对生活水平的期待值不断提高,消费者对于购物体验的要求逐渐增高,如何提升客户满意度,吸引大批消费者下单是电商企业首要解决的难题。订单拣选作为电商配送中心众多环节中的一环,其作业水平是决定商品出库效率的关键因素之一。电商配送中心的各个作业环节彼此影响,订单分批的方式既
近年来全球疫情不断蔓延,国内产品内销不畅,外销受阻导致产能过剩库存积压,制造业供给侧矛盾加深。许多线下企业资金周转中断被迫纷纷倒闭。而对比线上多家电商平台比如网易严选、必要商城、小米严选和京东京造发展C2M模式销量反增不减,焕发了巨大的生命力,该模式以销定产,既可以满足消费者定制化产品的需求,又能扩大内需促进双循环。然而,该模式下定制产品趋向多样化,个性化,对供应链提出了更高的需求,所以快速构建新
近年来,我国快递市场日益扩大,快递员数量已超过300万,每日快件配送量超过了1亿件,飞速增长的市场给物流平台带来了巨大挑战。快件送达时间的预测(即在任意时间点上,预测某个快递员的所有未派送快件的送达时间)是物流平台的一项至关重要的任务。准确预测快件送达时间,一方面可以为用户提供更加准时的服务,提升用户体验,另一方面可以协助快递公司进行区域划分和人员调度,以及帮助快递员进行路径规划,提高派送效率。得
在经济迅速增长和文化繁荣发展的带领下,传媒业也出现了欣欣向荣的发展趋势,传媒行业的健康发展与创新在社会发展中具有重要的作用及地位。但在传媒文化繁荣发展的同时存在一些问题,如最常见的标题党现象。标题党是当前互联网背景下典型的新闻传播乱象,在消费主义、经济主义以及自媒体的利益驱动之下,标题党现象迅速发展。新闻撰写者通过哗众取宠、极具噱头的新闻标题来吸引读者的注意,而这种极具夸张的标题脱离了新闻原本的内
从1978年国内理论界提出了住房商品化、土地产权等观点,到1998年住房实物分配制度的取消和按揭政策的实施后房地产投资进入快速发展时期,再到“房住不炒”的商品房居住属性回归下的平稳阶段,我国的商品住宅开发已走过了40年的历史。随着可持续发展基本国策下的节能减排趋势,中央提出了“用10年左右的时间,装配式建筑占新建建筑面积比例达到30%”的目标,这将在人类建筑史上,特别是装配式建筑史上一次史无前例的
随着工业化进程的加快,全球气候的变暖与环境问题的频发,各国倡导降低能源消耗、减少碳排放。物流配送业也是碳排放的主要来源之一,企业在安排货物配送过程中也要考虑环境方面的因素,从车辆调度路径规划方面考虑碳排放的因素。另外随着城市规模的扩大,城市道路的交通拥堵等状况的频发,以及城市的环保要求下,各个城市对载货车辆的配送都出台了许多管控措施,如限号、限时、限区域配送等。企业要在城市各种限行政策下满足各种客
近年来随着社交网络OSN(Online Social Network)的不断兴起,微博平台也日渐成熟。随着大量用户的涌入,恶意营销用户也随之而来。恶意用户将商品信息在社交网络中大肆传播,诱导用户购买以从中获利。其行为严重污染微博社交环境,影响用户体验。如何从用户量巨大的微博平台中识别出恶意营销用户,一直是恶意用户识别领域需要精细化处理的问题。目前该领域的研究中大多采用集成学习算法。使用人工选取的特