论文部分内容阅读
随着互联网的发展,全世界人们的联系愈发紧密。机器翻译因为便捷、免费的优点,成为联结使用不同语言的用户之间的重要桥梁。虽然机器翻译技术已有了很大发展,但它的译文与人工翻译之间还有着很大差距。就目前普遍使用的基于短语的统计机器翻译系统而言,就有许多有待改进之处。在统计机器翻译现有的解码算法中,一般为了缩减搜索空间,都必不可少地会引入剪枝策略,但这随之又会带来搜索错误的问题,即不能找出模型对应的最佳译文。本课题的研究便在此问题上展开。针对这个问题,本文制定了详细的研究方案。在现有技术的基础上,我们提出了多维度的解码方法。与传统方法不同,在解码一个句子的过程中,该方法会使用多组参数权重。而针对这多组参数权重的训练,我们又进而提出了多维度的训练方法。这两种方法与以往有着显著区别的是,不是针对句子,而是粒度更小的推导。并且在参数训练的过程中,我们引入了强制解码的方法来获取参考推导。最后,我们使用Cubit解码器和MERT工具,对多维度的解码及其训练进行了实现。然后通过合理的实验设置,我们设计了多组实验来验证这两种方法的有效性。结果表明,通过使用更有针对性的参数权重,搜索错误有所减少,翻译效果得以提升。