基于语义分析的机器翻译领域适应性优化方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:intel20107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译领域适应性特指翻译系统或模型对不同领域知识和问题的学习和处理能力,体现为翻译系统或模型的健壮性、稳定性和可移植性。目前,利用大规模的平行资源搭建的机器翻译系统,在面向特定领域翻译任务时,往往难以获得令人满意的翻译结果。一方面,翻译系统的平行训练语料中混杂着不同领域的翻译知识和语言现象,这为特定领域文本的翻译引入了许多的噪声。另一方面,当文本的领域发生变化时,利用现有平行语料训练的翻译系统无法自动的适应领域的变化。针对上述问题,本文集中研究面向统计机器翻译的领域适应性优化方法,具体包括以下三个方面:(1)基于主题信息的领域平行句对选择与优化提出利用平行句对蕴含的主题信息从大规模领域混杂的平行语料库中选择与领域相关的句对子集,用以训练特定领域机器翻译系统。针对平行句对长度较短,难以有效分析其主题的问题。提出构建基于短语对的主题模型,进而推理平行句对和目标领域开发集的主题表示。(2)基于语义相似度的领域翻译模型优化方法针对利用现有平行资源训练的翻译系统,无法根据文本的领域变化进行自适应翻译的问题,提出从语义角度评价短语对的领域互译度,借此优化通用翻译模型。该方法构建特定领域词向量的双语映射关系,以获取短语对中单词在特定领域的语义k近邻词。借助该语义k近邻词,估计短语对的领域互译度,并作为新特征融入翻译系统解码器,以提升翻译模型的领域适应能力。(3)融合句子和文档信息的翻译模型优化方法针对测试文本领域未知的情况,提出一种融合句子和文档信息的翻译模型动态适应性优化方法。对于任意短语对,该方法将其所在源语言句子和文档作为上下文信息。并借助神经网络模型,学习短语对和其上下文的语义表示,最终输入多层感知机计算获取短语对的语义匹配得分。
其他文献
用熔融接枝方法制备了一系列不同接枝率的GMA(甲基丙烯酸缩水甘油酯)/St(苯乙烯)多单体接枝聚丙烯[}P-g-(GMA-co-St)],基体聚丙烯包括均聚聚丙烯和共聚聚丙烯(乙烯的摩尔分数
信息化高度发展的今天,以通识性教育为主的计算机基础课程的改革势在必行。本文从根据学科门类设置不同课程体系的计算机基础课程改革的角度为计算机基础课程的改革提供了思
肥皂草素是从石竹科植物肥皂草(Saponaria officinalis)的种子中提取的一种单链核糖体失活蛋白(scRIP), 它可选择性地作用于真核细胞的核糖体和原核细胞裸露的rRNA使其脱嘌呤
利用MgCl2在醇中溶解和蒙脱土(MMT)在醇中层间膨胀的特性, 制备了MgCl2/TiCl4负载于MMT层间的MMT/MgCl2/TiCl4催化剂, 并通过原位聚合合成了聚乙烯/蒙脱土纳米复合材料. 经广
用分子力学方法、AM1半经验方法以及从头算密度泛函B3LYP/6-311G**方法研究了3-芳胺甲烯基-5,6-二氢-二氢吡喃-2,4-二酮类化合物在催化氢化反应中影响反应选择性的因素,结果
片断的UHF运算不能保证每个片断轨道具有确切的电子占据数, 故Kost定域化是必需的. 当片断产生于多键断裂时, 在确保目标轨道单占据性的同时, Kost定域破坏了轨道基组的对称