基于迁移学习的缅甸语依存句法分析方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:tree63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析是自然语言处理的重要研究任务,由于缅甸语为资源稀缺语言,人工标注大规模的缅语依存句法分析数据存在较大困难。本文利用英语的依存标注数据,通过迁移学习方法解决缅甸语依存句法分析问题,研究具有一定的学术意义。本文分析了缅甸语、英语在句法方面的差异性,提出了基于共享网络参数的缅甸语依存句法分析方法,提出了基于迁移学习的缅甸语依存句法分析方法。实验证明提出的方法在标注数据较少的情况下能够有效提升缅甸语依存句法分析的性能。本文取得了以下几方面的成果:(1)英缅句法差异性分析及语料库构建。分析了缅甸句法特点,研究了英缅句法之间的差异并分析了英缅句法结构的对应关系。结合英缅句法差异性利用从亚洲语言树库获取的20106对英-缅平行对齐语料,本文构建出1766句符合依存句法分析规则的缅甸语依存句法分析语料,17688条不符合依存句法分析规则的缅甸语依存句法分析语料。(2)基于共享网络参数的缅甸语依存句法分析方法。针对缅甸语依存句法分析语料不足的问题,本文提出共享网络参数的缅甸语依存句法分析方法。首先利用双语词典将英缅双语词向量映射到相同的语义空间中,然后基于斯坦福依存句法分析器使用大量的英语标记依存关系的语料训练出依存句法分析模型,通过共享网络参数得到缅甸语的初始网络参数,然后利用小规模的缅语标记语料对模型进行调优。实验结果表明,本文提出共享网络参数的方法,UAS的值达到了41.3%,LAS的值达到了28.8%,相比使用少量的缅甸语标记依存关系的语料训练缅语依存句法分析模型,依存弧准确率UAS提高了0.5%,依存弧标签的准确率LAS则相对提升了0.92%。(3)基于迁移学习的缅甸语依存句法分析方法。针对缅甸语词向量表征能力较差的问题,以及未考虑缅甸语的语言特征的问题,本文提出了基于迁移学习的缅甸语依存句法分析模型。首先是通过融合缅甸语音节特征信息和位置特征信息训练缅甸语单语词向量,提升缅甸语词向量表征能力。然后利用英缅双语语料训练双语的词向量,再和单语的词向量按一定比例组合获得英缅双语的词向量。训练模型的过程中加入了pos和依存弧的向量表示,并将英语的语料迁移到缅甸语上,进行缅甸语的依存句法分析模型训练,获得缅甸语的依存句法分析模型。实验结果表明,本文提出基于迁移学习的方法,依存弧准确率UAS的值达到了42.3%,依存弧标签的准确率LAS的值达到了29.3%,相比共享网络参数的方法,依存弧准确率UAS提高了0.85%,依存弧标签的准确率LAS则相对提升较小。(4)缅甸语依存句法分析原型系统的实现。缅甸语依存句法分析系统利用训练好的缅甸语依存句法分析模型对分好词的缅甸语句子进行依存句法分析。
其他文献
Bi2Te3等二维拓扑绝缘体,是近年来出现的一类新型二维可饱和吸收体。因其具有极短的恢复时间或驰豫时间,这类二维拓扑绝缘体可以作为高速被动Q开关,用于固体激光器的被动调Q,
为实现各导航系统的兼容与互操作,需要对各导航系统间的时间偏差进行实时监测。目前,GNSS时差监测的主要方式是通过采用多模接收机接收空间信号,建立定位方程,通过参数估计的
作为一种应用广泛的非监督学习任务,聚类任务一直是热点研究问题。传统方法已经取得了不错的成绩,然而其在面对大规模高维数据时却力有不足。受到深度学习在分类问题中取得显
宫颈癌是最常见的女性恶性肿瘤之一。相关医学研究表明,可以通过早期病变筛查降低宫颈癌发病率和死亡率,因此,癌前病变的筛查成为宫颈癌预防的关键。阴道镜检查是宫颈病变筛
财务重述是上市公司针对以前发布的财务报表遗漏或者错误的信息,进行补充或更正的行为,本意是通过修正或提供更为准确的财务信息来保护投资者利益。可是近些年,财务重述在国
智能移动终端在现今移动信息时代中已经成为人们日常生活中必不可少的物品之一,同时随着移动终端和无线网络技术的飞速发展,人们的消费理念随着国民经济的持续增长渐渐的由物质需求向精神需求开始转变,网络娱乐类产业为满足人们对精神文化上的需求,以内容品质为突破口,追求卓越。这对娱乐产业来说是机遇也是挑战,如何在在线音乐产业这块红海中占据一席之地,对各音乐APP而言是不易的,目前随着整个音乐市场的高度集中化,用
与零带隙的石墨烯不同,二维(2D)过渡金属硫族化合物(TMDs)由于d电子相互作用而具有随厚度变化的可调谐带隙(1~2 e V),成为了新型电子和光电子器件应用领域的明星材料体系。其中,二硫
本文致力于短波直扩信号检测技术研究,重点研究低信噪比条件下直扩信号的检测与参数提取等技术难题。主要以典型短波扩频信号为研究对象,通过进行信号仿真,确定和提取信号特
目标在雷达高频区表现出明显的散射中心特性,目标散射中心的特征提取为雷达图像解译和目标的分类识别提供了有力支撑。基于电磁散射参数化模型的特征提取方法可以有效地从目
自啁啾脉冲放大技术被提出以来,超短超强激光得到了飞速发展,并且在物理学、化学、材料学、生物学、医学等诸多领域都有着广泛应用。这些学科的兴起也促进超短超强激光向着更