论文部分内容阅读
依存句法分析是自然语言处理的重要研究任务,由于缅甸语为资源稀缺语言,人工标注大规模的缅语依存句法分析数据存在较大困难。本文利用英语的依存标注数据,通过迁移学习方法解决缅甸语依存句法分析问题,研究具有一定的学术意义。本文分析了缅甸语、英语在句法方面的差异性,提出了基于共享网络参数的缅甸语依存句法分析方法,提出了基于迁移学习的缅甸语依存句法分析方法。实验证明提出的方法在标注数据较少的情况下能够有效提升缅甸语依存句法分析的性能。本文取得了以下几方面的成果:(1)英缅句法差异性分析及语料库构建。分析了缅甸句法特点,研究了英缅句法之间的差异并分析了英缅句法结构的对应关系。结合英缅句法差异性利用从亚洲语言树库获取的20106对英-缅平行对齐语料,本文构建出1766句符合依存句法分析规则的缅甸语依存句法分析语料,17688条不符合依存句法分析规则的缅甸语依存句法分析语料。(2)基于共享网络参数的缅甸语依存句法分析方法。针对缅甸语依存句法分析语料不足的问题,本文提出共享网络参数的缅甸语依存句法分析方法。首先利用双语词典将英缅双语词向量映射到相同的语义空间中,然后基于斯坦福依存句法分析器使用大量的英语标记依存关系的语料训练出依存句法分析模型,通过共享网络参数得到缅甸语的初始网络参数,然后利用小规模的缅语标记语料对模型进行调优。实验结果表明,本文提出共享网络参数的方法,UAS的值达到了41.3%,LAS的值达到了28.8%,相比使用少量的缅甸语标记依存关系的语料训练缅语依存句法分析模型,依存弧准确率UAS提高了0.5%,依存弧标签的准确率LAS则相对提升了0.92%。(3)基于迁移学习的缅甸语依存句法分析方法。针对缅甸语词向量表征能力较差的问题,以及未考虑缅甸语的语言特征的问题,本文提出了基于迁移学习的缅甸语依存句法分析模型。首先是通过融合缅甸语音节特征信息和位置特征信息训练缅甸语单语词向量,提升缅甸语词向量表征能力。然后利用英缅双语语料训练双语的词向量,再和单语的词向量按一定比例组合获得英缅双语的词向量。训练模型的过程中加入了pos和依存弧的向量表示,并将英语的语料迁移到缅甸语上,进行缅甸语的依存句法分析模型训练,获得缅甸语的依存句法分析模型。实验结果表明,本文提出基于迁移学习的方法,依存弧准确率UAS的值达到了42.3%,依存弧标签的准确率LAS的值达到了29.3%,相比共享网络参数的方法,依存弧准确率UAS提高了0.85%,依存弧标签的准确率LAS则相对提升较小。(4)缅甸语依存句法分析原型系统的实现。缅甸语依存句法分析系统利用训练好的缅甸语依存句法分析模型对分好词的缅甸语句子进行依存句法分析。