神经网络机器翻译中的集外词处理方法

来源 :第十二届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户：x737101013

【摘要】

：

　　基于数据驱动的机器翻译方法严重受限于双语训练数据的规模。最为直接的影响之一便是集外词翻译问题：如何处理训练语料中未出现过的词语。由于模型约束与计算复杂度的限制

【作者】

：

张家俊;

【机构】

：

中科院自动化所

【出处】

：

第十二届全国机器翻译研讨会

【发表日期】

：

2016年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　基于数据驱动的机器翻译方法严重受限于双语训练数据的规模。最为直接的影响之一便是集外词翻译问题：如何处理训练语料中未出现过的词语。由于模型约束与计算复杂度的限制，最近兴起的神经网络机器翻译方法仅仅对几万高频词进行编码和翻译，所有低频词成为集外词，从而进一步加剧了集外词翻译问题。一方面，集外词无法获得正确目标译文；另一方面，大量出现的集外词将严重破坏句子结构，影响上下文及整个句子的翻译。我们提出一种“替换-翻译-恢复”的集外词解决方案。在“替换”阶段，我们旨在寻找低频词的高频词替身，通过词语替换保持句子的语义结构；替换后的数据用于神经网络翻译模型训练；在“恢复”阶段，我们提出一种基于字符的神经网络翻译方法，从而可以处理绝大多数的集外词翻译问题，最后将句子译文中的某些词重新替换为集外词的目标译文。实验表明这种集外词处理方法可以大幅度提升神经机器翻译的译文质量。

其他文献

深度学习在汉藏机器翻译中的应用研究

该文将深度学习技术应用于汉藏机器翻译任务中,采用了编码器-解码器结构.在编码阶段,首先将汉语句子中的每个词映射为定长的词向量,并通过循环神经网络压缩整个句子

会议

面向专利领域的汉英机器翻译融合系统

面向专利领域的机器翻译近年来已成为机器翻译的重要应用领域之一.本文提出了一个汉英专利文本机器翻译融合系统,该系统以规则系统为主导搭建,并把规则翻译方法和基

会议

基于HNC理论的汉英机器翻译模板研究

　　翻译模板是对自然语言现象高度的总结概括，也是机器翻译重要的资源，翻译模板的质量关系着机器翻译系统的效能，所以对翻译模板的编写一直是机器翻译领域研究的难题。本文采用

会议

HNC理论汉英机器翻译翻译模板自然语言语句格式机器翻译系统转换部分质量关系

MinKSR:A Novel MT Evaluation Metric for Coordinating Human Translators with the CAT-oriented Input M

　　In order to improve the efficiency of human translation,there is an increasing interest in applying machine translation(MT)to computer assisted translation(

会议

Automatic Construction of Domain Terminology Knowledge Base for HowNet Based on the Headword

　　HowNet is a Chinese-English Bilingual common-sense knowledge base,playing an important role in machine translation tasks.However,when fac-ing domain-specifi

会议

基于二维词汇化领域知识的日汉科技术语翻译方法研究

科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技

会议

基于测试集的机器翻译系统显著性检验方法

　　显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差。用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位，忽略了抽样样本之间的独

会议

测试集机器翻译系统显著性检验随机误差检验方法抽样样本独立性假设性能改善

机器翻译中先验知识的使用--分析及实践

　　机器翻译的发展有两个重要的维度，一是探索更为有效的数学工具对翻译的建模、计算等问题进行求解，二是使用丰富的先验知识来引导系统进行更加“合理”的翻译。我们发现二者

会议

统计机器翻译知识的使用分析先验知识相关问题引导系统数学工具使用问题