论文部分内容阅读
基于短语的统计机器翻译方法是当前统计机器翻译研究的热点。在统计机器翻译中解码器的作用就是根据学习到的模型信息寻找源语言句子中最可能的目标译文。本文在柱搜索算法的基础上,设计并实现一个高效的基于短语统计机器翻译的解码器。
本文首先介绍了解码器中加入的多个特征模型,包括基本的短语翻译模型、目标语言模型以及附加的扭曲模型、词语惩罚模型、短语惩罚模型。解码器以这些特征模型作为信息输入,对源语言句子进行解码搜索。
柱搜索算法采用启发式规则对搜索过程中的节点进行高效剪枝,在人工智能领域中得到广泛的使用。本文采用柱搜索算法开展解码器的研究工作,其主要贡献是:
1、设计完成了整个解码系统,给出了系统构建中主要流程的一些算法。主要包括翻译选项表的构建、将来概率表的计算,柱搜索解码,n-best回溯等算法。
2、提出了改进的剪枝策略。动念剪枝策略提高栈大小剪枝精度,预剪枝策略根据栈阈值进一步提高剪枝速度。
3、提出了改进的位置重排限制方法。通过避免不完全路径和减少重复扩展的设计思想,提出一种新的位置重排限制方法。实验表明,该方法不仅能在扩展速度上比当前的位置重排限制提高一倍,而且扩展精度也得到提高。
4、提出了领域术语翻译方法。针对领域术语翻译效果不理想的问题,提出了利用术语词典对领域术语进行特殊处理的方法。