论文部分内容阅读
近年来,借助深度学习的飞速发展,神经网络机器翻译的研究取得了非常显著的进展。蒙汉机器翻译的研究起步较晚,平行语料规模相对较小,存在严重的数据稀疏问题。本论文将从两个方面展开研究:一、模型损失函数和译文评价指标度量方式不一致,模型训练阶段依赖真实数据分布而预测阶段依赖模型分布从而导致曝光偏差问题产生。本文引入强化学习的思想,利用不同奖励机制解决损失函数和评价指标度量方式不一致问题,通过不同的解码方式缓解曝光偏差问题;二、数据稀疏条件下模型训练困难。本文提出了一种利用蒙古语子词向量对翻译模型参数初始化的方法,并提出了一种随机添加噪声数据的数据增强方法用于增强蒙汉双语数据。具体方法如下:一、尝试在蒙汉神经网络机器翻译任务中引入强化学习的思想。设置不同级别(词语级、序列级)的奖励函数,并以不同比例线性结合奖励函数和交叉熵损失函数进行实验。实验在40%序列级奖励+60%交叉熵损失函数的设置上得到最优结果。本文还对束搜索、计划采样等解码方法进行对比,实验证明计划采样这一方法取得了更好的效果。二、提出了一种基于子词粒度的蒙古语词向量生成方法。该方法借助BPE切分算法,在大规模单语语料上生成与平行语料粒度一致的子词向量,并将该向量作为翻译模型的初始化参数。实验表明,该方法可以有效缓解由于使用不同语料训练词向量而导致的词向量在向量空间分布稀疏和词向量质量下降的问题,有效提升翻译模型质量。三、提出了一种针对蒙汉平行语料的源端数据随机添加噪声的方法,并同反向翻译这一数据增强技术进行对比实验。实验表明,针对蒙汉平行语料稀缺而采取的两种数据增强方法均可以提升蒙汉机器翻译任务的译文质量,而反向翻译技术由于引入了更多单语数据,提升更为明显。本文在CWMT2018训练集上开展实验。实验结果显示,借助子词向量作为初始化参数的蒙汉机器翻译模型较基线模型最高可以提升BLEU值1.79个百分点;基于强化学习的蒙汉神经网络机器翻译模型较基线模型最高提升BLEU值0.6个百分点;通过数据增强技术,蒙汉神经网络机器翻译的译文质量较基线结果提升BLEU值1.1个百分点。