基于短语统计机器翻译的柱搜索解码器的优化及实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wcd_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于短语的统计机器翻译方法是当前统计机器翻译研究的热点。在统计机器翻译中解码器的作用就是根据学习到的模型信息寻找源语言句子中最可能的目标译文。本文在柱搜索算法的基础上,设计并实现一个高效的基于短语统计机器翻译的解码器。 本文首先介绍了解码器中加入的多个特征模型,包括基本的短语翻译模型、目标语言模型以及附加的扭曲模型、词语惩罚模型、短语惩罚模型。解码器以这些特征模型作为信息输入,对源语言句子进行解码搜索。 柱搜索算法采用启发式规则对搜索过程中的节点进行高效剪枝,在人工智能领域中得到广泛的使用。本文采用柱搜索算法开展解码器的研究工作,其主要贡献是: 1、设计完成了整个解码系统,给出了系统构建中主要流程的一些算法。主要包括翻译选项表的构建、将来概率表的计算,柱搜索解码,n-best回溯等算法。 2、提出了改进的剪枝策略。动念剪枝策略提高栈大小剪枝精度,预剪枝策略根据栈阈值进一步提高剪枝速度。 3、提出了改进的位置重排限制方法。通过避免不完全路径和减少重复扩展的设计思想,提出一种新的位置重排限制方法。实验表明,该方法不仅能在扩展速度上比当前的位置重排限制提高一倍,而且扩展精度也得到提高。 4、提出了领域术语翻译方法。针对领域术语翻译效果不理想的问题,提出了利用术语词典对领域术语进行特殊处理的方法。
其他文献
随着信息技术的不断成熟,机电一体化技术在实际工作当中的应用也越来越广泛,这种情况对各行各业的发展都起到了一定的促进作用.将机电一体化技术应用在实际生产当中,不仅可以
城轨交通系统在当代交通体系中占据着十分重要的作用,为人们在交通出行中带来了极大的便利,更对于当下日渐拥挤的城市地区在缓解交通压力中有着较为积极的作用.因此全国各大
钢铁工业是国民经济的支柱产业,高炉炼铁是钢铁工业的重要组成部分。如何控制高炉安全、稳定、均衡、顺行从而达到炼铁界提出的“优质、低耗、高产、长寿”的炼铁目标具有重
TFT-LCD显示器是平板显示器的一种,实际应用范围广泛,功耗低且重量轻.伴随LCD技术的进步与革新,台式与笔记本液晶显示器逐渐普及.要想在液晶显示器薄型化发展中站稳脚跟,单片
车牌识别是实现交通智能化的核心技术之一,在智能交通系统领域有着重要的应用价值,车牌识别技术的运用,将大大改善公路交通运行和管理的效率。车牌自动识别系统一般包括车牌