基于语种相似性挖掘的神经机器翻译语料库扩充方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:sgrsrg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法.首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义.在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36.所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理.
其他文献
《计算机体系结构(第2 版)》(ISBN:9787302406372)荣获首届全国教材建设奖全国优秀教材(高等教育类)一等奖,第1 版和第2 版先后被评为普通高等教育“十一五”国家级规划教材和“十二五”普通高等教育本科国家级规划教材.
期刊
针对基于参考向量的高维多目标进化算法中随机选择父代个体会降低算法的收敛速度,以及部分参考向量分配个体的缺失会减弱种群多样性的问题,提出了一种基于分解的高维多目标改进优化算法(IMaOEA/D).首先,在分解策略框架下,当一个参考向量至少分配了2个个体时,对该参考向量分配的个体根据其到理想点的距离选择父代个体来繁殖子代,从而提高搜索速度.然后,针对未能分配到至少2个个体的参考向量,则从所有个体中选择沿该参考向量和理想点距离最小的点,使得该参考向量至少有2个个体与其相关.同时,确保环境选择后每个参考向量有一个
从姿态信息采集、姿态情绪特征提取、姿态情绪识别算法和姿态情绪数据库几个方面对国内外姿态情绪识别研究进行了全面的总结,分析了姿态情绪识别研究存在的难点和挑战,提出姿态情绪识别的关键是姿态情绪特征提取和姿态情绪数据库的建立,最后探讨了姿态情绪识别研究的发展方向.