神经网络机器翻译中的集外词处理方法

来源 :第十二届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户:x737101013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  基于数据驱动的机器翻译方法严重受限于双语训练数据的规模。最为直接的影响之一便是集外词翻译问题:如何处理训练语料中未出现过的词语。由于模型约束与计算复杂度的限制,最近兴起的神经网络机器翻译方法仅仅对几万高频词进行编码和翻译,所有低频词成为集外词,从而进一步加剧了集外词翻译问题。一方面,集外词无法获得正确目标译文;另一方面,大量出现的集外词将严重破坏句子结构,影响上下文及整个句子的翻译。我们提出一种“替换-翻译-恢复”的集外词解决方案。在“替换”阶段,我们旨在寻找低频词的高频词替身,通过词语替换保持句子的语义结构;替换后的数据用于神经网络翻译模型训练;在“恢复”阶段,我们提出一种基于字符的神经网络翻译方法,从而可以处理绝大多数的集外词翻译问题,最后将句子译文中的某些词重新替换为集外词的目标译文。实验表明这种集外词处理方法可以大幅度提升神经机器翻译的译文质量。
其他文献
该文将深度学习技术应用于汉藏机器翻译任务中,采用了编码器-解码器结构.在编码阶段,首先将汉语句子中的每个词映射为定长的词向量,并通过循环神经网络压缩整个句子
会议
面向专利领域的机器翻译近年来已成为机器翻译的重要应用领域之一.本文提出了一个汉英专利文本机器翻译融合系统,该系统以规则系统为主导搭建,并把规则翻译方法和基
会议
  翻译模板是对自然语言现象高度的总结概括,也是机器翻译重要的资源,翻译模板的质量关系着机器翻译系统的效能,所以对翻译模板的编写一直是机器翻译领域研究的难题。本文采用
  In order to improve the efficiency of human translation,there is an increasing interest in applying machine translation(MT)to computer assisted translation(
会议
  HowNet is a Chinese-English Bilingual common-sense knowledge base,playing an important role in machine translation tasks.However,when fac-ing domain-specifi
会议
科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技
会议
  显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差。用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位,忽略了抽样样本之间的独
  机器翻译的发展有两个重要的维度,一是探索更为有效的数学工具对翻译的建模、计算等问题进行求解,二是使用丰富的先验知识来引导系统进行更加“合理”的翻译。我们发现二者
近几年来,一种基于词嵌入的线性变换方法在可比语料双语词典抽取任务上取得了显著的效果.这种方法假定双语词嵌入空间在翻译时满足线性关系,然而,在实际中,双语词嵌
会议
  机器翻译本质上是离不开语义的,它不仅需要解决源语言的语义表示问题,还要保证源语言的语义完整、正确地传递到目标语言上。最近几年我们可以看到机器翻译研究的兴趣正逐渐