论文部分内容阅读
随着互联网和人工智能技术的快速发展,教育信息化的步伐正在加快,智慧教育的概念已经开始影响并改变着传统的教育方式,而且现代化的电子产品与移动终端都已经全方位的覆盖于教育教学过程中,其中手写识别技术担任着不可或缺的责任。目前手写体识别主要是集中在汉字、英文字符以及数字的研究上,并在这几个领域已取得了非常好的成绩,但是这些识别都只局限于一维的空间上,对于诸如数学,物理和化学公式等二维结构分布的识别就显得力不从心。由于数学公式这种二维结构的数据在识别时不仅仅要考虑其中每一个符号的类别,还要考虑各个符号之间的结构位置关系,这对于手写技术的要求非常高,因此该领域的研究还处于初级阶段,需要不断的去探索。据此,本文将针对联机手写数学公式的识别技术进行分析,提出了基于行为链的数据构建方式对数学公式进行处理,结合深度学习模型LSTM来分析数据间的时序关系,帮助更好的分析公式中符号的构成以及符号间的关联关系,并采用编码器—解码器与注意力模型相结合的框架来构建整个联机手写数学公式识别模型(EAD-OHMER)。主要完成的工作如下:1.基于目前处理时序问题较为流行的深度学习模型长短时记忆网络(LSTM)来构建联机手写数学公式识别模型,可以直接将手写笔迹数据作为输入,不需进行符号切分就可以直接识别公式符号,较之前传统的识别方式更加方便准确。2.提出了一种基于行为链的数据构建方法,重点对公式中符号间的关系进行抽象描述,旨在反映符号间的相关性,避免在分析时舍弃符号间的关联性而单独考虑一个符号的类别,其同时也能降低输入网络模型中的数据冗余。3.提出了基于编码器—解码器的联机手写数学公式识别模型(EAD-OHMER),并加入了注意力机制来解决原始编码器—解码器存在输入序列过长时会造成之前信息被覆盖的缺点,较传统公式识别分几个环节单独研究的方式更加简便准确。4.在提出的EAD-OHMER模型基础上,详细介绍了各模块的实现方法,数据的预处理及特征提取,以及行为链的构建和编码器与解码器模型的构建算法及训练过程,模型的输入是(8836,50,210),输出是一个个的数学符号。基于本文所述的方法,在不同的数据集上进行了验证,并在同一数据集下与其他系统对比分析,发现EAD-OHMER在同等条件下有着更好的识别效果。