论文部分内容阅读
自人类进入近代社会,国际间的跨语言交流日趋频繁。人们依靠互联网打破了物理的空间束缚,却仍然难以跨越语言的屏障。以往单纯依赖人类译员的模式在翻译需求指数倍增的信息时代也显得捉襟见肘,而机器翻译作为高效便捷的自动化工具,在这一背景下应运而生并取得长足发展。目前使用最广泛的是基于大规模神经网络的神经机器翻译,学术界对其提出过大量的改进思路,包括模型结构、训练目标、解码速度等。这些工作着眼于对基本框架的改动,但对模型自身学习能力的挖掘与探索还不够充分。然而,神经机器翻译模型本身就隐含着较强的学习能力,其内在机制蕴藏着大量可开发与可解释的空间。一方面,在训练过程中,其局部的子模块能隐式地学习翻译流程中的分解特征,如词向量空间、注意力(词对齐)等;另一方面,其自身端到端的训练方式拥有强大的适应性,可以拓展到多个任务中。这两项学习能力值得进一步挖掘。本文将聚焦于神经机器翻译模型自身的隐式学习能力,在三个机器翻译的扩展任务上展开研究与应用:1.在多样性翻译任务上,挖掘神经机器翻译模型多头注意力模块隐式习得的规律,并利用该规律增强模型自身的翻译多样性,动态地实现翻译质量与翻译多样性的平衡,同时将其与反向翻译技术结合进一步提升模型的性能。2.在低资源翻译任务上,分析神经机器翻译模型内部的注意力头组件训练不平衡问题,同时提出局部屏蔽策略针对性地缓解该问题,实现低资源语言对翻译质量的提升。3.在文档翻译任务上,延伸神经机器翻译模型端到端的训练方式,发掘其自身长距离文本建模的潜力,构建新型的文档翻译范式,并提出新的大规模数据集及针对性评价指标,打破了过往对于训练数据与训练场景的限制。