基于判别式模型的树到树统计机器翻译

来源 :东北大学 | 被引量 : 0次 | 上传用户:outerwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出并实现了一种全新的基于判别式模型和依存句法结构的树到树的统计机器翻译技术及框架,且性能堪比目前最好的基于句法的机器翻译模型。这种框架可以更灵活的利用目标语端的句法结构,以达到更好的翻译效果,这项工作为将来的统计机器翻译的研究工作提供了另一种可行的方法。和目前已有的方法不同,本文提出的方法将机器翻译任务当作目标语端的句子生成任务。使用多种特征来捕捉和学习双语端的句法结构、短语互译等信息,且首次将依存句法结构运用到了翻译规则中。本文工作所使用的判别式模型(感知机)不同于传统机器翻译中的生成式模型,可以很好的在丰富特征的基础上学习参数,提高模型的鉴别能力,这对解码过程十分重要。在训练时,首先进行双语端数据预处理工作,将双语句对中出现时间、数字、日期、人名、地名等不可枚举的词串识别出来并进行泛化和翻译。接着是对双语数据进行依存句法分析,为每一个双语句对找到两棵依存句法树。在此基础上进行词对齐训练,词对齐训练的任务是为双语句对中的词和词之间找到相互对应的关系。在词对齐信息和双语依存句法信息已知的情况下,从每一个双语句对中抽取出包含依存信息的翻译规则。然后,以双语端句法树和句法翻译规则表作为输入,在迭代式的构建目标语树的过程中,不断学习特征的权重(包括传统的短语翻译概率、语言模型、调序模型等特征,也包括本文工作特有的双语端句法树特征),这些权重最终被保存到模型中。在解码时,以源语端依存句法树作为输入,利用翻译规则转化为目标语端的依存片段,加载训练时得到的模型中的参数,这些参数会在解码时指导翻译过程,帮助解码器构建一颗目标语端的句法树。在IWSLT 2010年机器翻译评测数据上,本文所提出的方法,在性能上高于目前最优的串到树、树到树和树到串系统,略差于目前最优的短语和层次短语系统。在GEOQuery Data语料上,本系统性能超过目前最优的句法和短语系统,与目前最优的层次短语系统性能相当。
其他文献
搜索引擎是网络信息检索的重要工具,但现有搜索引擎检索到的结果太多,用户很难找到真正想要的资料。如何提高搜索引擎的查准率是其亟待解决的问题。文本自动分类技术是自然语言
显著区域检测是近年来非常活跃的研究方向。目前已经存在一些显著区域检测方法。这些方法主要有:基于对比的模糊增长方法、基于SVM的显著区域提取方法等。这些方法主要是研究
基于分块的多聚焦图像融合算法是多聚焦图像融合领域中的一个特有算法,通过将源图像分块,比较对应图像块的清晰度,然后挑选出清晰度高的图像块来合成融合图像。基于差分演化
随着软件技术的发展,静态开发模式已经不能满足需求。以组件的形式开发出来的软件具有结构清晰、易于定制、便于动态扩展等特点,在Windows平台上已经得到了广泛的应用。本文
随着网络的广泛普及和应用,网络环境下多样化的传播途径和复杂的应用环境给恶意软件的传播带来巨大便利,从而对网络系统及网络上主机的安全构成巨大威胁。这是恶意软件与杀毒
本课题针对视网膜图像处理中的关键技术问题作了研究,包括视网膜血管网络的提取、视网膜血管宽度的测量、视网膜图像的配准。通过对比研究常见的几种视网膜血管分割算法,采用KN
游戏引擎是最近十年出现的新名词,也是当前计算机应用技术领域倍受关注的一个研究方向。游戏引擎是同一类游戏中经过规范化的可复用部件,它有机结合了多种子引擎,包括图形、
网格是一门前景远大的研究领域。它是继传统互联网、Web之后的第三次大浪潮,被称为第三代互联网。与以往不同的是,它的目标是实现全球范围内互联网资源的共享和协同工作。网
我国铁路运输采用高度集中、统一指挥的管理模式,铁路运输调度在运输生产中起着核心和中枢作用。以前,铁路运输调度指挥系统基本采用手工作业方式,手段落后,制约了运输生产和铁路
通信技术、计算机技术以及网络技术的融合,产生了一个新的研究领域——计算机支持的协同工作(Computer Supported Cooperative Work,CSCW)。CSCW的目标是利用计算机和通信技