面向机器翻译的英汉商务信函对应语块研究

来源 :上海外国语大学 | 被引量 : 0次 | 上传用户:ggtand007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究为研制面向机器翻译的英汉商务信函对应语块库提供理论、技术和方法。主要涉及两个研究问题:(1)如何界定面向机器翻译的商务英语信函语块?(2)面向机器翻译的英汉商务信函语块具有什么样的对应关系?  语块研究还有许多问题亟待解决,特别是机器翻译领域。双语对应语块的研究多数停留在技术方面,面向商务信函机器翻译且基于翻译事实的对应关系和对应规则问题鲜有探讨。商务英语信函中有大量的具有特色的英汉商务信函对应语块,处理好这些语块就能使译文更加地道。商务英语信函的翻译涉及对外贸易业务的各个环节,同时也是我国从事国际贸易工作人员应具备的基本业务能力。因此,面向英汉商务信函的研究受益面广且实用性强,有较大的研究意义。  本研究的主要方法:第一,使用对比法和归纳法,提出语块构成分析理论模型。第二,采用语料库和定量研究方法,实现基于平行语料库的人机互动的商务英语信函语块提取。第三,使用定性研究方法,分析面向机器翻译的商务英语信函语块及其对应的汉语译文之间的对应关系和对应规则。  语块构成分析理论模型的基本观点是构式分别由单词和语块构成,语块由单词搭配组合而成,语块是一种主要的构式。因此,可将“面向机器翻译的商务英语信函语块”界定为一种实体构式,即形式和意义/功能的结合体,是一种基本无歧义、复用程度高、整存整取且连续的多词单位。它通常大于两个单词小于九个单词,因为从心理学角度看短时记忆组块的容量为“7±2”,从机器翻译角度看它是翻译匹配比较合适的粒度。该界定为面向机器翻译的英汉商务信函对应语块研究提供理论支撑。  通过“文本预处理、自动提取、人工处理”三个模块,实现基于平行语料库的人机互动的商务英语信函语块提取。首先,从总量约为100万字词的英汉商务信函平行语料库中,随机抽取400个商务英语信函和对应的400个商务汉语信函(共115026字词,其中英文46868单词,中文68158单字,约占总库的十分之一)作为研究语料,并进行文本预处理。然后使用语料库短语抽取系统,利用计算机自动提取商务英语信函中的N-gram,按照2-9 Grams自动提取生成202127个Grams,经过自动消重处理后,得到154613个Grams。在这15万余个Grams中,依据频率提取值大于2的Grams后,使用互信息(MI)的方法进行计算,得到290个计算机自动提取的商务英语信函候选语块。最后人工删除不符合面向机器翻译的商务英语信函语块界定标准的候选语块,从而得到245个面向机器翻译的商务英语信函语块。该语块提取研究是研制面向机器翻译的英汉商务信函对应语块库的关键技术。  面向机器翻译的英汉商务信函对应语块库的构建模式分为基础资源层、人机互动提取层、对应规则层三个层面和文本预处理模块、自动提取模块、人工处理模块、对应关系的分析模块、对应规则的制定模块、标准得分的评判模块六个模块。该模式是语块库构建的流程,能够有效地进行各限定领域的语块库建设,从而最终组成一个超大规模的、包含各领域的、服务于英汉机器翻译系统的通用语块库。它是研制面向机器翻译的英汉商务信函对应语块库的重要方法。最后,本研究将展望语块库在机器翻译方面的应用前景。  针对主要研究的问题,本研究有以下的研究结果。(1)“面向机器翻译的商务英语信函语块”界定为一种实体构式,即形式和意义/功能的结合体,是一种基本无歧义、复用程度高、整存整取且连续的多词单位。(2)面向机器翻译的英汉商务信函语块存在完全对应、不完全对应和零对应三种关系;具有完全对应关系的语块有227个,占92.65%;具有不完全对应关系的语块为17个,占比6.94%;具有零对应关系的仅1个,占比0.41%,可以说只是个别现象。在面向机器翻译的英汉商务信函对应语块表中,完全对应关系占绝大部分。这样非常有利于英汉商务信函机器翻译系统,从而进一步提高英汉商务信函机器翻译系统的译准率。分析具有不完全对应关系的语料发现:一是译者的随意性造成的译文差异;二是中英文表达习惯造成的差异;三是译文语言的简化造成的差异。具有零对应关系(零翻译)的例子有时显得生硬、不鲜活,并不利于语言交流和人际交往。因此,从语料来看,多数译文选择忠实地传达原文。  本研究具有一定的创新性和应用价值。(1)运用构式语法理论提出语块构成分析的理论模型,并界定面向机器翻译的商务英语信函语块,为研制面向机器翻译的英汉商务信函对应语块库提供理论支撑。(2)实现人机互动的商务英语信函语块提取,分析面向机器翻译的英汉商务信函语块的对应关系和对应规则,研制面向机器翻译的英汉商务信函对应语块表,提出面向机器翻译的英汉商务信函对应语块库的构建模式,为进一步研制面向机器翻译的英汉商务信函对应语块库提供技术和方法,也为英汉商务信函机器翻译系统提供翻译知识。(3)该研究对提高英汉商务信函机器翻译系统的译准率起到关键作用。(4)研究成果用于英汉商务信函机器翻译,能够解决英汉商务信函中的语言沟通障碍,对提升国内外经贸交流起到促进作用。
其他文献
《呼啸山庄》是英国文学中最为独特的作品之一,它蕴含着强烈的感情和独创性,并且将复杂的故事情节用高超的叙述手法娓娓道来。目前对该小说的研究不胜枚举,然而,大多是从文学的角
文体学研究可以追溯至古希腊时期。然而直至近几十年,文体学才开始成为人们热议的话题。文学文体学多注重诗歌和小说的研究,却忽略了对戏剧的探析,其中中国现代戏剧作品更是少人
演讲作为一种艺术性的活动在当今全球化的时代起着重要的,不可替代的作用。为了能够更好地发表、解读并欣赏演讲,我们需要演讲修辞批评理论的指导。然而,提及演讲修辞批评的传统
有关语用学中合作与不合作现象的研究都非常之多。但是近年来也出现了语用学和其他分支的交叉多维研究,本论文就选择了“词汇语用”这一角度。先选择英语新词为切入点,先分析新