基于层次短语的统计机器翻译若干问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:q363342684
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
层次短语翻译模型是具有代表性的统计机器翻译模型。它属于形式句法模型,使用同步上下文无关语法进行译文的生成,既能兼容短语模型中的所有短语翻译,同时也如语言学句法模型一样具有较好的泛化能力和长距离调序能力。因此,层次短语成为了统计机器翻译研究中最受关注的模型之一。   本文以基于层次短语的翻译系统作为切入点,通过对此系统的深入分析,进而研究传统的统计机器翻译系统框架中存在的问题。我们重点研究了词法分析、文档分析和大规模判别式训练三个方面的问题,取得了如下研究成果:   1.联合词法分析和翻译   传统的翻译系统中,词法分析和翻译分两步进行,翻译过程以词法分析的1-best结果作为输入。然而对于大多数语言,词法分析包含歧义并存在错误。因而,在分步的方式下,词法分析的错误可能导致进一步的翻译错误,造成错误的传播和放大。为此,我们提出了联合的方法,同步进行词法分析和翻译。我们的联合解码器融合了词法分析特征和翻译特征,以原子结构(如字序列)作为输入,同时生成源语言端的单词序列和目标语言端的翻译结果。实验表明,联合方法在汉英和韩汉的翻译任务上都能显著的提高翻译效果。同时,作为一个词法分析器,我们的联合解码器在中文分词任务上的准确率也超过了目前流行的的分词工具。此外,此系统还参加了国际知名的口语翻译评测IWSLT2010年汉英方向的比赛,并获得了第一名的好成绩。   2.面向层次短语的主题相似度模型   传统的翻译系统忽略了文档级别的主题信息,鉴于此信息的重要性,近来有研究者将主题信息引入到单词间的翻译中。然而,统计机器翻译早已从基于词的模型发展到基于句法的模型。为此我们提出了面向层次短语的主题相似度模型,从而在翻译规则的级别上运用主题信息。本方法为每条同步翻译规则估计一个主题分布,然后根据规则的主题分布和文档的主题分布之间的相似程度进行规则选择。实验表明,相比传统的翻译系统和基于主题的词语翻译方法,我们的方法都能产生更好的翻译结果。   3.面向大规模判别式训练的翻译森林快速生成方法   虽然判别式训练能够方便的融入大量的非独立的特征,从而提高统计机器翻译的性能。然而,由于解码复杂度的限制,传统的翻译训练算法难于扩展到大规模数据上。为此,我们提出一种新颖的翻译森林快速生成方法,通过词语对齐,我们的算法在线性的时间内生成训练所需的翻译森林。同时,我们的方法保证翻译森林中总是存在能够生成参考译文的推导,从而避免了传统方法中经验性的最佳译文选择问题。实验表明,我们的方法能够快速有效的在大规模的语料上训练数百万的特征,并显著的提高翻译的质量。
其他文献
伴随着全球能源危机,世界各国均开始着手新能源的研究。天然气作为一种可再生能源,已得到社会各界的广泛关注,而西气东输工程的投运也为压缩天然气(Compressed Natural Gas,CNG)
传感器网络数据融合是一个新兴的研究领域,是近几年来发展起来的一门实践性较强的多学科交叉的新应用技术,并从传统领域(如军事国防和环境监测等)向民用领域(如医疗健康,智能
随着互联网信息技术、移动计算技术以及无线通讯技术的发展,移动应用的需求日益增多,移动对象的应用领域也越发广阔。在此类应用中如何高效地管理空间中运动的对象成为研究热点
随着互联网和移动技术的高速发展,社交网络的出现为人们获取信息和传播信息提供了一个重要的网络平台。转发是社交网络中重要的社交特性之一,同时也是社交网络上消息传播的主要
学位
近几年来,随着国内外遥感应用领域研究的不断拓展,将主动与被动两类微波遥感器相结合进行包括海面风场在内的地物目标探测或反演研究,已成为海洋遥感应用研究方面的一个重要发展
基于偏振编码的单光子量子密钥分配(Quantum Key Distribution,QKD)是用量子偏振态携带密钥信息的一种绝对安全的密钥分配方式,其密钥安全性由量子不可克隆原理和测不准原理来
随着装配有GPS接收器的摄像机与移动电话的普及,一些带有GPS标签的视频被上传到了网络视频分享平台上。这些反映视频拍摄地点的GPS标签触发了众多基于地理位置的网络视频应用
编译器内部各种优化的不同组合及其参数的不同设定构成了一个巨大的优化空间。编译器的预设优化级别(如GCC的-0s、-01、-02、-03等)不过是该空间中的几个点,而且性能通常并非
随着我国各行业的信息化建设的迅速发展,信息系统更新的速度越来越快,并且项目往往集中出现而且时间要求严格。目前国内有很多信息系统是遵循J2EE规范开发的,而且基于J2EE平台的