基于版面分析的智能图文比对系统

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ZNZXCTH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着党政机关的文印市场以及各种书刊出版市场的不断扩大,机关及企业部门对印刷品质量的精确度要求也在不断地提高。而在印刷品的生产过程中,受到生产条件的影响,印刷品经常会出现各种各样的问题:例如在电子文件的排版阶段,图像分辨率的调整从而造成的信息缺失;输出印刷机的印刷生产阶段的漏印,飞墨等,都有可能导致打印出来的文件与原始文件有一些或多或少的差异,这种差异会体现在图文版式,漏字错字等可能造成信息缺失和信息错误等方面,并与此同时带来印刷成本的增加。为了保证文印文件在印刷前后内容上的一致性,需要对印刷品的印刷质量进行严格的把控。本文设计实现了一个能够对印刷前后的文档进行基于内容比对的系统。从进行版面分割的目标出发,选择了Mask-RCNN作为进行本次文档版面分割子任务的基础网络模型进行训练。对分割后的版面通过后续的文字划分、文字比对、图像比对、文档标注等功能完成对文档的版面分析以及其内容比对,及时指出因印刷错误导致的文档的内容偏差。下面是本文研究的主要工作和创新之处:1.制作了中文文档版面文档分割数据集,同时在不同的网络模型中也能够保持着良好的迁移训练效果,并且能够同时在中英文版面上对文档图像进行基于版面的分割。2.提出了一种文档版面排序算法,能够对分割后的版面按照读者通常进行阅读的顺序进行拓扑排序;提出了一种基于文字图像特征的自适应文字划分方法,能够对存在文字的版面区域图像进行基于文字的图像拆分,同时该划分算法对于存在黏连文字的图像也有着较好的分割效果。通过对系统进行单元测试以及整体测试,系统能够对文档间的内容差异达到96.9%的差异标记准确率。
其他文献
随着电动汽车产业的发展,对芯片的需求量日益剧增,国内的车企大多使用国外的芯片作为主流产品,来获得汽车的电气系统的稳定性与可靠性。步进电机驱动芯片是车规芯片中最常用的芯片之一,被应用在各种机械连接的场合下。但我国车规芯片的发展时间较短,稳定性和可靠性目前没有得到国内市场的认可,可替换性较差,所以对车规芯片所需的高可靠性和稳定性研究也越来越受重视。本文对步进电机的原理和步进电机驱动芯片的原理进行分析描
学位
随着数字图像处理技术的日益发展,普通的数字显示设备由于自身工艺的限制,其动态范围难以达到人眼的级别,再加上成像环境的影响,显示出的图像经常存在着曝光不平衡、颜色失真和运动阴影等问题,图像质量已无法满足人们的要求。宽动态范围(Wide Dynamic Range,WDR)技术则正是致力于解决此方面的问题,借助于WDR技术,数字显示设备能够分辨出图像最亮和最暗的部分,因此对于图像高光和阴暗区域的曝光能
学位
随着芯片制造工艺的发展,单个晶体管的体积和功耗变得越来越小,单位芯片面积可集成的晶体管数量遵循摩尔定律提升,这导致高端芯片的整体功耗在不断上升。晶体管密度的增加使芯片上的金属布线变得越来越密集和纤细,芯片整体功耗的增大又使金属布线的电流密度越来越大,从而引发了芯片出现EM、IR-Drop等非理想效应,这些效应对芯片的可靠性构成了严重威胁,同时芯片整体功耗的上升也给芯片的热设计带来了巨大的困难,可以
学位
近年来,无线充电技术的普及对各类便携电子设备提出了快速发展的要求。无线充电芯片由于其耦合线圈输入范围较宽,无法直接对芯片内部各个功能模块进行供电,所以需要一种低压差线性稳压器(LDO,Low Dropout Regulator)电路,可将输入电压转换为合适的低电压并对内部电路供电,从而使无线充电芯片内部模块正常工作。基于上述问题,本文的主要研究目标是设计一个用于无线充电芯片内部的宽输入LDO电路。
学位
在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方
学位
在当今这个剧烈变化着的时代,伴随着诸如可穿戴电子产品、无人机、商用服务机器人、电动车内的各系统的车载控制器等智能设备越来越成熟、产品性能需求越来复杂,对充当伺服控制器的芯片的功能要求也越来越多变。因此采用旧有硬件结构的伺服控制器逐渐难以平衡实际应用中工程需求的各个方面。与此同时具备相当灵活性的So C设计也逐渐应用于伺服控制领域,伺服控制集成电路IP化已经是必然的趋势。目前,国内主打面向控制类需求
学位
随着信息时代和人工智能时代的快速发展,移动终端设备已经在人们的生活和工作中发挥了不可替代的作用,这对移动设备的充电速度以及充电设备的便携性都提出了更高的要求。反激式变换器以其拓扑结构简单、成本低和天然隔离输入输出环路的优点,在小功率变换器以及便携式设备的充电器领域广受欢迎。GaN功率管因为有着更高的迁移率,相比于传统的Si功率管有着更好的开关响应,在高速开关的场合中得到了越来越广泛的应用。本文设计
学位
近年来,随着人工智能快速发展,深度学习技术已经在许多领域发挥出巨大的作用。目前TensorFlow框架作为最主流神经网络框架之一,根据实际应用或再训练场景的改变,部署神经网络模型需要重新构建和训练模型,并且部署过程十分耗时。为了解决这一问题,微软联合多家公司推出了开放神经网络交换格式(Open Neural Network Exchange,ONNX),采用统一的标准保存深度学习模型。将Tenso
学位
随着后摩尔时代的到来,在超大规模集成电路设计阶段验证已经逐渐成为困扰各大芯片设计人员的关键问题,虽然可以使用软件仿真、硬件加速仿真等验证方法来加速验证流程,但是随着集成电路设计规模逐渐增大,原先的验证方法在时间成本上已经无法满足当前快速设计迭代的需求,使用FPGA进行芯片设计原型验证已逐渐成为验证阶段主流。但随着设计的规模剧增,单片FPGA已无法满足超大型集成电路设计的验证需求,从而衍生出高密度F
学位
计算机技术发展催生的建筑信息模型(BIM)是建筑工程行业近年来最热门的发展方向,已在建筑设施的规划设计、建造运营等环节发挥重要作用。随着物联网技术的发展,主要采用C/S架构的传统BIM服务对客户端的硬件配置要求高,学习和使用成本高,难以应对新的需求,构建基于Web端的BIM展示系统成为BIM发展的新出路。然而,在Web端BIM数据加载缓慢且渲染帧率低下,是Web端BIM展示系统的瓶颈。本文聚焦于在
学位