离线手写公式识别研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:godmouse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公式作为一种抽象、定义和表述问题的工具,是科技类文档中不可或缺的一部分。离线手写公式识别可以将手写公式图像转换为计算机可以编辑和表达的LaTeX字符串,在智能搜题、智能阅卷、辅助输入、转录信息等智慧教育及日常生活场景中都有着广泛的应用,能够直接便利人们的学习、工作和生活。然而,由于公式中字符间复杂的二维结构关系,传统的识别方法往往难以正确识别手写公式图像。随着深度学习的发展,研究者们将基于注意力机制的编解码网络应用到该领域中,并取得了较大的进展。但随着模型建模能力的增强,模型过拟合逐渐成为了制约该领域发展的瓶颈。此外,目前的研究工作没有针对长序复杂公式的识别进行优化,对于复杂的公式图像的识别效果依旧较差。如何应对模型过拟合问题以及长序复杂公式带来的识别挑战,是离线手写公式识别研究中亟待解决的问题。本文针对离线手写公式识别领域中存在的模型过拟合问题以及长序复杂公式带来的识别挑战,从训练数据、训练策略和模型结构三个层面展开研究,通过数据增强、优化模型训练策略以及增强模型对公式中字符依赖关系的建模能力等方法来提高模型对手写公式图像的识别效果。本文的工作内容如下:(1)研究了手写公式图像的数据增强方法。针对离线手写公式识别领域有限的训练数据难以支撑复杂的识别模型的训练,从而造成的过拟合问题,本文提出了三种数据增强方法:1)基于字符替换的手写公式图像生成方法,该方法通过图像变换算法和字符替换的方式,能够同时从视觉和语义层面上对原始训练样本进行扩充;2)基于真实场景数据的手写公式图像数据集,构建并公开了大型手写公式图像数据集HFID,相比该领域中已有的数据集,HFID具有数据量更大、字符类别更多、覆盖领域更广、更贴近真实应用场景等优点;3)基于生成对抗网络的手写公式图像生成方法,本文基于图像风格转换的思想,将印刷体公式图像转换为指定手写风格的公式图像,提出了能够解决CycleGAN隐写问题的P2H-CycleGAN网络和融合多尺度风格与内容特征的P2H-GANwriting网络。实验结果表明,本文提出的数据增强方法均能提高模型的泛化能力,降低过拟合影响。(2)研究了基于训练策略的手写公式图像的识别优化方法。针对已有的训练策略没有对模型过拟合进行优化,容易导致模型过拟合在训练集中的问题,本文根据模拟退火算法和Dropout的设计思想,提出了多轮混排训练策略。该策略将整个训练过程分为了多轮训练,在每轮训练中继承上一轮训练得到的网络参数,并通过混排字符字典的方式在每轮训练初期给模型带来扰动。通过这种方法不仅能使模型继承之前轮次学习到的特征,还能强迫模型降低对其中部分特征的依赖并学习新的特征,从而达到增强模型泛化性,降低模型过拟合的目的。实验结果表明,多轮混排训练策略能够有效降低模型过拟合影响。(3)研究了基于字符多模态关系依赖的长序复杂公式识别优化方法。针对现有模型中隐式的关系依赖建模难以学习字符间的长序依赖关系的问题,本文提出了一种多模态关系依赖注意力模块。该模块首先通过融合字符的视觉和语义两种模态的信息来增强模型对字符的表达能力,然后以字符多模态特征为输入,利用注意力机制高效地建模当前待识别字符与已经识别到的字符之间的依赖关系,最终利用该依赖关系辅助当前字符的识别,达到提高模型对长序复杂公式图像识别效果的目的。实验结果表明,多模态关系依赖注意力模块能够高效而准确地建模字符之间的视觉和语义关联,并能有效提升长序复杂公式图像的识别效果。
其他文献
大型涡轮盘是重型燃气轮机的核心部件,其制备技术难点主要在于大规格均质化合金锭的制备以及涡轮盘锻件的模锻成型两个方面。得益于我国800MN模锻液压机的设备能力,大型涡轮盘锻件的模锻成型能力问题得到了有效解决,而大规格均质化合金锭的制备成为了当前最迫切需要攻克的难题。此外,与航空发动机1000-3000h的寿命要求不同,重型燃气轮机要求稳定服役20000h以上,因此,提高涡轮盘材料的长时组织与性能的热
学位
前体RNA经过加工形成成熟的RNA。RNA转录物经过5’加帽、3’末端加工、剪接和修饰;并在协同转录和转录后加工过程中形成动态二级结构。与编码RNA一样,非编码RNA(nc RNA)也经历了广泛的加工。转录组研究揭示了RNA在协同转录和转录后水平在调控基因表达、植物发育和植物-环境互作中的作用。植物可以在转录和转录后水平响应胁迫应答。干旱胁迫能够引起植物形态、生理、生化和分子等特征的改变。不同植物
学位
航空发动机主轴承在高温、高速、重载的苛刻环境下服役,采用具有优异高温硬度、尺寸稳定性和耐磨性的高温轴承钢制造。高温轴承钢凝固过程中由于合金元素(C、Cr、Mo、V)的偏析,极易形成超大尺寸的一次碳化物,在服役过程中作为疲劳裂纹的萌生源导致轴承发生疲劳破坏。因此,高品质高温轴承钢的制备是实现高端轴承长寿命、高可靠性制造的保障。为制备大尺寸、均质化的高温轴承钢坯料,本文提出利用金属构筑成形技术避免金属
学位
气候变化和全球变暖是人类面临的重要环境问题,对人类生存和健康构成巨大威胁,在此背景下,中国提出碳达峰和碳中和目标。汽车排放召回符合当前我国低碳经济发展的要求,也是践行碳达峰、碳中和的务实之举。逐级降低汽车大气污染物的排放量是重要的发展趋势,汽车排放召回将对防治大气污染发挥重要作用。汽车排放召回的顺利实施依赖监管部门、企业和消费者的三方配合,其中消费者积极主动地参与汽车排放召回十分重要。然而,汽车排
学位
在化石能源日益消耗和环境污染不断加剧的背景下,研发符合可持续发展理念的新型清洁能源是迫在眉睫的任务,氢气(H2)因其有高热值、低污染、来源广的突出优势,成为新能源中的最佳候选。随着电化学技术的高速发展,电解水制氢吸引了科技界和产业界的广泛关注,电解水过程包括析氧反应(OER)与析氢反应(HER),高活性的电催化剂在电解水过程中可以有效降低能耗。OER是一个四电子转移过程,动力学较为迟缓,是电解水制
学位
生物为了适应极端的生存环境,进化出了许多独特的液体操纵能力。受这些行为的启发,多种基于激励响应材料的主动式液滴操纵方法被开发出来,并成功应用于精细化学和生物医疗等领域。其中磁响应微结构表面可以在磁场激励下发生可逆变形,从而实现对液滴的主动操纵。但是,现有的基于磁响应微结构的液滴操纵方式灵活性差,且只能在单一平面内操纵液滴。磁响应微结构表面的制备方法也十分繁琐,进一步限制了磁激励液滴操纵的实际应用。
学位
风积沙路基的处理一直是沙漠公路建设面临的难题,土工格室加固方法可为沙漠公路建设提供一条新路径,结合S21线(乌鲁木齐-阿勒泰)沙漠公路路基现场试验,研究不同路基深度动力响应特征,对土工格室加固风积沙性能探究具有重要的价值及意义。结果表明:(1)测试车速对路基不同深度处动应力、动加速度和动速度的时程曲线波动性影响较大,且提高车速时,动速度峰值、动加速度峰值和动应力峰值都出现了明显的增加;(2)随着路
期刊
深度估计长久以来一直是计算机视觉领域的一个重要底层任务,从图片中预测每个像素的深度值对于多种现实世界中的下游任务,比如车辆自动驾驶,场景三维重建,增强现实以及机器人操作都有着重要的帮助。但是,直接从生产端拍摄的单张或多张图像中直接估计深度面临多方面的挑战,例如如何快速有效地预测准确的深度,如何在缺失大量真实的训练数据集的情况下进行神经网络的训练,如何高效利用深度信息辅助下游任务的进行。对于这些任务
学位
基本公共服务是为满足社会共同的基本需求、实现公共利益,在政府主导下通过公共资源的投入,向社会非特定的公众提供的各种产品与服务的总和。受到地方财政资源紧缺、供给主体单一以及户籍制度等因素的限制,我国基本公共服务供给的现状具有明显的非均等化特征。党的十九大报告明确指出,“我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”。执政党工作的主题从单纯的“以经济建设为中心”向
学位
本文以文化与国际关系为视角,围绕泛美主义演进过程中,拉丁美洲所展现出的文化特点进行研究。泛美主义属于美洲范围内特有的国际合作形式。它的表述出自美国,始于寻求与拉丁美洲国家的国际合作,但却成为了美国控制拉丁美洲的霸权思想。为此,美国巧妙地改造了拉丁美洲民族解放时期玻利瓦尔的美洲团结思想。而在泛美主义演进过程中,冷战期间产生了寻求拉丁美洲内部合作的泛拉美主义,体现出玻利瓦尔思想的本质。三者虽有不同,但
学位