论文部分内容阅读
内容摘要:随着神经网络翻译的发展,谷歌翻译和百度翻译成为使用率较高的机器翻译平台。本文从金融时报(FT)双语网站选取一篇新闻媒体的文本进行案例研究,对比人工翻译和两种机器翻译,分析两种机器翻译的优缺点,提出人工翻译依然无法替代,同时通过适当利用机器翻译的长处,可以提高翻译效率和质量。
关键词:信息类文本 机器翻译 问题 分析
传统的机器翻译存在着“只见树木不见森林”的问题,而近几年,尤其是2016年以来,随着神经网络机器翻译技术的突飞猛进,机器翻译的表现获得质的飞跃。谷歌推出的神经网络翻译(GNMT, Google Neural Machine Translation)采用循环神经网络(RNNs, Recurrent Neutral Networks)在产出译句的每个部分时都会参考整个原句,译文用词和语序都更自然,更符合目标语的语法。以维基百科和新闻译文为对象的质量测试表明,谷歌将翻译错误将降低了55%-85%。而百度翻译也采用了神经网络翻译,目前,神经机器翻译已经取代统计机器翻译成为Google和百度等在线机器翻译系统的核心技术。
根据德国翻译家卡塔琳娜·赖斯(Katharine Reiss)的文本类型理论,文本类型包括信息型( informative)、表情型(expressive)、操作型(operative)三类。信息类文本是指“自然科学、科技、工商经济”类文书文本,讲求术语表达的专业性,语言表述的直陈性、客观性、逻辑性和文体风格的不变性。新闻文本属于信息类文本,翻译时强调重视原文、简洁明了,且具有术语复杂、句式固定等特点,因此具有最高的机器翻译适用性。
《金融时报》中文网站的文章是经济新闻类,属于信息类文本。本文选取了网站中一篇题为《全球债市抛售加剧》的文章为研究对象,探讨新闻信息类文本的机器翻译的优缺点,对比谷歌和百度两种平台的翻译,并尝试提出改进的建议。
本部分从字词句等传统领域进行对比分析,用R指代网站的人工翻译,G为谷歌翻译,B百度翻译。为比对方便,原文划线处对应的翻译用阴影标出。
一.常用表达
这里的常用表达除了专有名词外,还包括常用的词和短语。
(P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.
R: 这使得10年期美国国债收益率(全球经济中最受关注的利率)在周一上升5个基点,至2.73%的峰值,为2014年4月以来最高水平。
G: 这将全球经济最广泛关注的10年期美国国债收益率提高了5个基点,至周一高点2.73%,为2014年4月以来的最高点。
B: 这使全球经济最受关注的10年期美国国债收益率提高了5个基点,达到星期一的2.73%点,为2014年4月以来的最高点。
财经类的文章中,会经常出现这样的句式和表达,如“……上涨/下跌……,至……,为……最高/低水平”,原文的“a peak of number”是常用表达,意为“……峰值”。谷歌翻译中翻译成“高点”也未尝不可,但是百度翻译中漏译了这层意思,只能归咎于数据库中没有对应的词条,或者训练用的语料本身就漏译了。需要扩充数据库专业词汇,辅以人工纠错,解决词汇层面的问题。
(P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.
R: ①10年期德国国债收益率攀升②7个基点,至0.69%,5年期德国国债收益率自2015年11月以來首次回到③正值区间。
G: ①10年期德国外滩上涨②7个基点至0.69%,自5月份以来首次将5年期外滩收益率回升至③正面区间。
B: ①德国10年期国债上涨②7BP至0.69%,提升五年债券的收益率回到了2015年11月以来的首次③正。
Bund在德语中对应bond,读音和拼写都与英语接近,人工翻译能够识别出来,但是bund在英语中也有“堤岸、同盟”等意思,会产生干扰,这时人工翻译的优势就体现了出来。谷歌翻译很显然没有“学习”这个特殊用法,即“德国”后面的Bund意为“国债”,而百度翻译也没有“学习”数字后面的bp意为“基点”。原文③positive territory暴露了百度翻译的漏译问题,因为没有对应的词条,机器翻译只有一个字——“正”。谷歌翻译虽然语义上有点偏差,但也算中规中矩,没有完全漏掉。但是,谷歌翻译中波浪线部分居然将November翻译成“5月份”,说明系统还有很严重的漏洞。笔者尝试将“since November 2015”之前的三个意群“lifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意删除一个,机器都能识别出“2015年11月以来”,说明目前机器翻译的模式识别还有提升空间。
对比词条①的三种翻译,人工翻译增加了“收益率”,增词不增意,让译文更清楚易懂,体现了人工翻译的主动性。这一点是目前机器翻译望尘莫及的地方。
二.词语搭配
搭配是指某种语言中一些词往往同时的趋势,搭配的形成是随机的,不同语言会有不同的搭配习惯。 R: “①这一切让人感觉有点欣快过头,”投资集团GAM的首席经济学家拉里·夏德威(Larry Hatheway)说,“②这导致很多人认为,我们应该为一些风险缓解策略做好铺垫。③这波行情不会永远持续下去。”
G:… Larry Hatheway表示:“①这一切都让人感到欣喜若狂。 “②這导致了很多人认为我们应该为一些风险缓解战略奠定基础。③这不可能永远持续下去。”
B:“①这一切都感觉有点兴奋,”Larry Hatheway说,在GAM投资集团首席经济学家。“②这导致许多人认为我们应该为一些减轻风险的战略做好准备。③这不能永远持续下去。”
原文中使用了it和this,机器翻译全部处理为“这”,一个两个没问题,但是一连串的“这”会让读者有点摸不着头脑。原文it和this用词的不同在中文翻译中应该体现出来。这一点人工翻译表现得更好,this译成“这波行情”让读者很容易回溯到上文的语境。指示代词的指代内容会随着语境的变化而变化,而机器翻译在技术上很难规定指代的具体内容,即便海量的数据“学习”以后,也难以应对千变万化的指代对象。这种尴尬的结果其实可以追溯到中英两种语言实现衔接的差异。英文用指示代词,而中文常用具体名词指代上文内容。所以,英汉互译中指示代词的处理上,人工翻译是难以替代的。此外,两种机器翻译还有些小问题,比如谷歌机器翻译中两段引文合并后,波浪线处多了一个引号;百度翻译中波浪线处的“在”也出现得莫名其妙,这都是机器容易出现“小毛病”的佐证。
五.名词化
名词化指的是其他词类形成名词的过程,或者是指分句派生出名词词组的过程。名词化是信息类文章中常见的语法现象,名词化结构的背后常常是一个动词结构。
(P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.
R: 还有人担心,日本央行(BoJ)可能会在2018年晚些时候缩减一部分极端激进的刺激措施。
G: 日本央行也可能在2018年晚些时候缩减一些超激进的刺激措施。
B: 还有一种紧张情绪,即日本央行可能在2018年底缩减其部分激进刺激计划。
原文中的there is nervousness,其深层的意思是people feel nervous about …,人工翻译很准确地抓到这个意思。从两种机器翻译的对比看,谷歌翻译出现漏译;百度翻译虽然没有漏译,但是译文差强人意,究其原因是被原文“有”的表层结构限制了。名词化涉及语义理解,需要看透表面的结构,抓住深层次的动作含义,这也许是目前机器翻译比较难突破的问题之一。
从人工翻译与两种机器翻译的对比可以看出,人工翻译依然优势明显,不可替代,而谷歌和百度翻译各有优缺点。百度在常用搭配的选择上超过谷歌;而谷歌收录的财经类词汇超过百度,百度需要更多的提高数据库的专业化程度。而对于长难句的处理,百度倾向于保留原文结构,而谷歌则倾向于拆分结构。尽管长句翻译一般是用拆句法,但是如果拆了以后出现漏译错译,则是得不偿失,所以需要人工翻译审核把关。神经网络机器翻译的技术虽然大大提高了机器翻译质量,但是仍然存在一些低级错误,以及翻译质量不高的问题,人工翻译,尤其是高级笔译和审校依然是不可替代的。
参考文献
[1]Wu, Y., M. Schuster, Z. Chen et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.
[2]孙茂松,周建设.从机器翻译历程看自然语言处理研究的发展策略.语言战略研究,2016(6):12-18.
[3]刘洋,神经机器翻译前沿发展.计算机研究与发展.2017,54(6):1144-1149.
[4]张美芳.文本类型理论及其对翻译研究的启示.中国翻译,2009(5):54-55.
[5]原传道.英语“信息型文本”翻译策略.中国科技翻译,2005,18(3):50-52.
[6]孙谨慎.基于文本类型理论的机器翻译研究.中国科技翻译,2016(3):27-29.
[7]罗宾·威格尔斯沃思.全球债市抛售加剧.http://www.ftchinese.com/story/001
076136/ce#adchannelID=1100.2018-2-1.
[8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.
[9]Halliday, M.A.K
关键词:信息类文本 机器翻译 问题 分析
传统的机器翻译存在着“只见树木不见森林”的问题,而近几年,尤其是2016年以来,随着神经网络机器翻译技术的突飞猛进,机器翻译的表现获得质的飞跃。谷歌推出的神经网络翻译(GNMT, Google Neural Machine Translation)采用循环神经网络(RNNs, Recurrent Neutral Networks)在产出译句的每个部分时都会参考整个原句,译文用词和语序都更自然,更符合目标语的语法。以维基百科和新闻译文为对象的质量测试表明,谷歌将翻译错误将降低了55%-85%。而百度翻译也采用了神经网络翻译,目前,神经机器翻译已经取代统计机器翻译成为Google和百度等在线机器翻译系统的核心技术。
根据德国翻译家卡塔琳娜·赖斯(Katharine Reiss)的文本类型理论,文本类型包括信息型( informative)、表情型(expressive)、操作型(operative)三类。信息类文本是指“自然科学、科技、工商经济”类文书文本,讲求术语表达的专业性,语言表述的直陈性、客观性、逻辑性和文体风格的不变性。新闻文本属于信息类文本,翻译时强调重视原文、简洁明了,且具有术语复杂、句式固定等特点,因此具有最高的机器翻译适用性。
《金融时报》中文网站的文章是经济新闻类,属于信息类文本。本文选取了网站中一篇题为《全球债市抛售加剧》的文章为研究对象,探讨新闻信息类文本的机器翻译的优缺点,对比谷歌和百度两种平台的翻译,并尝试提出改进的建议。
本部分从字词句等传统领域进行对比分析,用R指代网站的人工翻译,G为谷歌翻译,B百度翻译。为比对方便,原文划线处对应的翻译用阴影标出。
一.常用表达
这里的常用表达除了专有名词外,还包括常用的词和短语。
(P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.
R: 这使得10年期美国国债收益率(全球经济中最受关注的利率)在周一上升5个基点,至2.73%的峰值,为2014年4月以来最高水平。
G: 这将全球经济最广泛关注的10年期美国国债收益率提高了5个基点,至周一高点2.73%,为2014年4月以来的最高点。
B: 这使全球经济最受关注的10年期美国国债收益率提高了5个基点,达到星期一的2.73%点,为2014年4月以来的最高点。
财经类的文章中,会经常出现这样的句式和表达,如“……上涨/下跌……,至……,为……最高/低水平”,原文的“a peak of number”是常用表达,意为“……峰值”。谷歌翻译中翻译成“高点”也未尝不可,但是百度翻译中漏译了这层意思,只能归咎于数据库中没有对应的词条,或者训练用的语料本身就漏译了。需要扩充数据库专业词汇,辅以人工纠错,解决词汇层面的问题。
(P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.
R: ①10年期德国国债收益率攀升②7个基点,至0.69%,5年期德国国债收益率自2015年11月以來首次回到③正值区间。
G: ①10年期德国外滩上涨②7个基点至0.69%,自5月份以来首次将5年期外滩收益率回升至③正面区间。
B: ①德国10年期国债上涨②7BP至0.69%,提升五年债券的收益率回到了2015年11月以来的首次③正。
Bund在德语中对应bond,读音和拼写都与英语接近,人工翻译能够识别出来,但是bund在英语中也有“堤岸、同盟”等意思,会产生干扰,这时人工翻译的优势就体现了出来。谷歌翻译很显然没有“学习”这个特殊用法,即“德国”后面的Bund意为“国债”,而百度翻译也没有“学习”数字后面的bp意为“基点”。原文③positive territory暴露了百度翻译的漏译问题,因为没有对应的词条,机器翻译只有一个字——“正”。谷歌翻译虽然语义上有点偏差,但也算中规中矩,没有完全漏掉。但是,谷歌翻译中波浪线部分居然将November翻译成“5月份”,说明系统还有很严重的漏洞。笔者尝试将“since November 2015”之前的三个意群“lifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意删除一个,机器都能识别出“2015年11月以来”,说明目前机器翻译的模式识别还有提升空间。
对比词条①的三种翻译,人工翻译增加了“收益率”,增词不增意,让译文更清楚易懂,体现了人工翻译的主动性。这一点是目前机器翻译望尘莫及的地方。
二.词语搭配
搭配是指某种语言中一些词往往同时的趋势,搭配的形成是随机的,不同语言会有不同的搭配习惯。 R: “①这一切让人感觉有点欣快过头,”投资集团GAM的首席经济学家拉里·夏德威(Larry Hatheway)说,“②这导致很多人认为,我们应该为一些风险缓解策略做好铺垫。③这波行情不会永远持续下去。”
G:… Larry Hatheway表示:“①这一切都让人感到欣喜若狂。 “②這导致了很多人认为我们应该为一些风险缓解战略奠定基础。③这不可能永远持续下去。”
B:“①这一切都感觉有点兴奋,”Larry Hatheway说,在GAM投资集团首席经济学家。“②这导致许多人认为我们应该为一些减轻风险的战略做好准备。③这不能永远持续下去。”
原文中使用了it和this,机器翻译全部处理为“这”,一个两个没问题,但是一连串的“这”会让读者有点摸不着头脑。原文it和this用词的不同在中文翻译中应该体现出来。这一点人工翻译表现得更好,this译成“这波行情”让读者很容易回溯到上文的语境。指示代词的指代内容会随着语境的变化而变化,而机器翻译在技术上很难规定指代的具体内容,即便海量的数据“学习”以后,也难以应对千变万化的指代对象。这种尴尬的结果其实可以追溯到中英两种语言实现衔接的差异。英文用指示代词,而中文常用具体名词指代上文内容。所以,英汉互译中指示代词的处理上,人工翻译是难以替代的。此外,两种机器翻译还有些小问题,比如谷歌机器翻译中两段引文合并后,波浪线处多了一个引号;百度翻译中波浪线处的“在”也出现得莫名其妙,这都是机器容易出现“小毛病”的佐证。
五.名词化
名词化指的是其他词类形成名词的过程,或者是指分句派生出名词词组的过程。名词化是信息类文章中常见的语法现象,名词化结构的背后常常是一个动词结构。
(P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.
R: 还有人担心,日本央行(BoJ)可能会在2018年晚些时候缩减一部分极端激进的刺激措施。
G: 日本央行也可能在2018年晚些时候缩减一些超激进的刺激措施。
B: 还有一种紧张情绪,即日本央行可能在2018年底缩减其部分激进刺激计划。
原文中的there is nervousness,其深层的意思是people feel nervous about …,人工翻译很准确地抓到这个意思。从两种机器翻译的对比看,谷歌翻译出现漏译;百度翻译虽然没有漏译,但是译文差强人意,究其原因是被原文“有”的表层结构限制了。名词化涉及语义理解,需要看透表面的结构,抓住深层次的动作含义,这也许是目前机器翻译比较难突破的问题之一。
从人工翻译与两种机器翻译的对比可以看出,人工翻译依然优势明显,不可替代,而谷歌和百度翻译各有优缺点。百度在常用搭配的选择上超过谷歌;而谷歌收录的财经类词汇超过百度,百度需要更多的提高数据库的专业化程度。而对于长难句的处理,百度倾向于保留原文结构,而谷歌则倾向于拆分结构。尽管长句翻译一般是用拆句法,但是如果拆了以后出现漏译错译,则是得不偿失,所以需要人工翻译审核把关。神经网络机器翻译的技术虽然大大提高了机器翻译质量,但是仍然存在一些低级错误,以及翻译质量不高的问题,人工翻译,尤其是高级笔译和审校依然是不可替代的。
参考文献
[1]Wu, Y., M. Schuster, Z. Chen et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.
[2]孙茂松,周建设.从机器翻译历程看自然语言处理研究的发展策略.语言战略研究,2016(6):12-18.
[3]刘洋,神经机器翻译前沿发展.计算机研究与发展.2017,54(6):1144-1149.
[4]张美芳.文本类型理论及其对翻译研究的启示.中国翻译,2009(5):54-55.
[5]原传道.英语“信息型文本”翻译策略.中国科技翻译,2005,18(3):50-52.
[6]孙谨慎.基于文本类型理论的机器翻译研究.中国科技翻译,2016(3):27-29.
[7]罗宾·威格尔斯沃思.全球债市抛售加剧.http://www.ftchinese.com/story/001
076136/ce#adchannelID=1100.2018-2-1.
[8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.
[9]Halliday, M.A.K