统计机器翻译模型的训练和解码方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:zwj1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究内容是基于层次短语的统计机器翻译模型中的参数训练和解码问题。   统计机器翻译中的参数训练问题是指在训练集上学习合适的统计机器翻译模型中的特征参数的问题。本文研究了一种基于结构化支持向量机的参数训练方法。该方法被设计为直接针对机器翻译自动评测指标进行参数的优化,训练过程采用边缘最大化的原则以及割平面算法进行求解。实验结果显示,基于结构化支持向量机的参数训练方法可以针对自动评测指标BLEU值对机器翻译输出的k-best列表进行重排序,也可以提升机器翻译系统的解码的总体效果。   统计机器翻译中的解码问题是指对于给定的源语言句子,在统计机器翻译模型的所有可能的输出中找到最好的目标语言句子的问题。本文提出了一种基于整数线性规划的统计机器翻译解码方法。在该解码算法中,语言模型概率和共现概率的相对大小被用来决定规则之间的关系,这些关系将被转化成整数线性规划中的线性不等式约束,由此把机器翻译解码问题建模为整数线性规划问题。根据使用约束条件的种类不同,基于整数线性规划的机器翻译解码模型可以分为基本模型、语言模型、共现模型,以及考虑所有约束的综合模型。在确定语言模型约束时,本文提出了两种通过语言模型概率值确定规则关系的方法,并实现了二元规则语言模型约束和三元规则语言模型约束。在确定共现模型约束时,本文提出了一种通过上下文计算规则相关性的方法,其中分别使用了两种计算规则相似性的方法。在构建综合模型时,本文提出了两种进行约束融合的方法。实验结果表明通过加入语言模型和共习模型,基于整数规划的解码算法的翻译效果进一步提高,部分超过CKYbeam-search解码算法。
其他文献
国内外学者已经提出很多聚类方法,这些方法各有优缺点,如K-均值算法简单易行、收敛快速,但是它需要事先给出聚类数目K,这在实际问题中是很难做到的;此外,该算法随机选取初始聚
随着科技的进步,时间序列成为应用最广泛和最常见的数据类型之一,例如在金融、医学和气象学等领域,都会产生大量的时间序列数据。对时间序列数据的研究与分析已经受到了越来
对象跟踪是计算机视觉的一个基本问题,可以应用到视频监控、视频分析、机器人和智能人机交互等很多领域。对象跟踪主要目的是获得运动对象在视频中的轨迹及运动参数,如位置、
脉冲耦合神经网络PCNN(Pulse Coupled Neural Network)是一种有着严格生物学背景的且不同于传统人工神经网络的第三代人工神经网络。与传统的人工神经网络相比,PCNN具有阈值
Web服务具有高度的互操作性、跨平台性和松耦合性等特点,使得Web服务在互联网上得到了广泛应用。然而随着研究的不断深入,单个Web服务已经不能满足用户的实际需要。组合Web服
遥感技术作为当今获取地物表面信息的重要手段,自20世纪60年代迅速发展至今,已被运用于环境监测、资源勘查、地质勘测、农业监控、军事侦察等诸多领域。由于该技术涉及众多科
随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自
传统的水质监测主要是以人工采集为主,数据量小,取样范围有局限性,缺乏实时性,因此对实时持续的水质监测分析系统的研究与开发逐渐受到人们的关注。而具有感知、计算和通信能
软件开发包含需求、设计、编码、测试和维护等几个阶段,需求工程处理需求阶段的问题。需求工程包括需求获取、需求分析、需求规约、需求确认和需求管理五个基本活动。其中,需求
火星吸引着很多国家和研究机构的注意力,因为它是太阳系中最类似于地球、最有可能存在生命的行星。对于火星,人类还有很多未知的领域,了解并利用它,是人类迈向太空的重要一步