新闻信息类文本机器翻译的常见问题与分析

来源 :文学教育·中旬版 | 被引量 : 0次 | 上传用户:shopfloor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   内容摘要:随着神经网络翻译的发展,谷歌翻译和百度翻译成为使用率较高的机器翻译平台。本文从金融时报(FT)双语网站选取一篇新闻媒体的文本进行案例研究,对比人工翻译和两种机器翻译,分析两种机器翻译的优缺点,提出人工翻译依然无法替代,同时通过适当利用机器翻译的长处,可以提高翻译效率和质量。
   关键词:信息类文本 机器翻译 问题 分析
  传统的机器翻译存在着“只见树木不见森林”的问题,而近几年,尤其是2016年以来,随着神经网络机器翻译技术的突飞猛进,机器翻译的表现获得质的飞跃。谷歌推出的神经网络翻译(GNMT, Google Neural Machine Translation)采用循环神经网络(RNNs, Recurrent Neutral Networks)在产出译句的每个部分时都会参考整个原句,译文用词和语序都更自然,更符合目标语的语法。以维基百科和新闻译文为对象的质量测试表明,谷歌将翻译错误将降低了55%-85%。而百度翻译也采用了神经网络翻译,目前,神经机器翻译已经取代统计机器翻译成为Google和百度等在线机器翻译系统的核心技术。
  根据德国翻译家卡塔琳娜·赖斯(Katharine Reiss)的文本类型理论,文本类型包括信息型( informative)、表情型(expressive)、操作型(operative)三类。信息类文本是指“自然科学、科技、工商经济”类文书文本,讲求术语表达的专业性,语言表述的直陈性、客观性、逻辑性和文体风格的不变性。新闻文本属于信息类文本,翻译时强调重视原文、简洁明了,且具有术语复杂、句式固定等特点,因此具有最高的机器翻译适用性。
  《金融时报》中文网站的文章是经济新闻类,属于信息类文本。本文选取了网站中一篇题为《全球债市抛售加剧》的文章为研究对象,探讨新闻信息类文本的机器翻译的优缺点,对比谷歌和百度两种平台的翻译,并尝试提出改进的建议。
  本部分从字词句等传统领域进行对比分析,用R指代网站的人工翻译,G为谷歌翻译,B百度翻译。为比对方便,原文划线处对应的翻译用阴影标出。
  一.常用表达
  这里的常用表达除了专有名词外,还包括常用的词和短语。
  (P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.
  R: 这使得10年期美国国债收益率(全球经济中最受关注的利率)在周一上升5个基点,至2.73%的峰值,为2014年4月以来最高水平。
  G: 这将全球经济最广泛关注的10年期美国国债收益率提高了5个基点,至周一高点2.73%,为2014年4月以来的最高点。
  B: 这使全球经济最受关注的10年期美国国债收益率提高了5个基点,达到星期一的2.73%点,为2014年4月以来的最高点。
  财经类的文章中,会经常出现这样的句式和表达,如“……上涨/下跌……,至……,为……最高/低水平”,原文的“a peak of number”是常用表达,意为“……峰值”。谷歌翻译中翻译成“高点”也未尝不可,但是百度翻译中漏译了这层意思,只能归咎于数据库中没有对应的词条,或者训练用的语料本身就漏译了。需要扩充数据库专业词汇,辅以人工纠错,解决词汇层面的问题。
  (P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.
  R: ①10年期德国国债收益率攀升②7个基点,至0.69%,5年期德国国债收益率自2015年11月以來首次回到③正值区间。
  G: ①10年期德国外滩上涨②7个基点至0.69%,自5月份以来首次将5年期外滩收益率回升至③正面区间。
  B: ①德国10年期国债上涨②7BP至0.69%,提升五年债券的收益率回到了2015年11月以来的首次③正。
  Bund在德语中对应bond,读音和拼写都与英语接近,人工翻译能够识别出来,但是bund在英语中也有“堤岸、同盟”等意思,会产生干扰,这时人工翻译的优势就体现了出来。谷歌翻译很显然没有“学习”这个特殊用法,即“德国”后面的Bund意为“国债”,而百度翻译也没有“学习”数字后面的bp意为“基点”。原文③positive territory暴露了百度翻译的漏译问题,因为没有对应的词条,机器翻译只有一个字——“正”。谷歌翻译虽然语义上有点偏差,但也算中规中矩,没有完全漏掉。但是,谷歌翻译中波浪线部分居然将November翻译成“5月份”,说明系统还有很严重的漏洞。笔者尝试将“since November 2015”之前的三个意群“lifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意删除一个,机器都能识别出“2015年11月以来”,说明目前机器翻译的模式识别还有提升空间。
  对比词条①的三种翻译,人工翻译增加了“收益率”,增词不增意,让译文更清楚易懂,体现了人工翻译的主动性。这一点是目前机器翻译望尘莫及的地方。
  二.词语搭配
  搭配是指某种语言中一些词往往同时的趋势,搭配的形成是随机的,不同语言会有不同的搭配习惯。   R: “①这一切让人感觉有点欣快过头,”投资集团GAM的首席经济学家拉里·夏德威(Larry Hatheway)说,“②这导致很多人认为,我们应该为一些风险缓解策略做好铺垫。③这波行情不会永远持续下去。”
  G:… Larry Hatheway表示:“①这一切都让人感到欣喜若狂。 “②這导致了很多人认为我们应该为一些风险缓解战略奠定基础。③这不可能永远持续下去。”
  B:“①这一切都感觉有点兴奋,”Larry Hatheway说,在GAM投资集团首席经济学家。“②这导致许多人认为我们应该为一些减轻风险的战略做好准备。③这不能永远持续下去。”
  原文中使用了it和this,机器翻译全部处理为“这”,一个两个没问题,但是一连串的“这”会让读者有点摸不着头脑。原文it和this用词的不同在中文翻译中应该体现出来。这一点人工翻译表现得更好,this译成“这波行情”让读者很容易回溯到上文的语境。指示代词的指代内容会随着语境的变化而变化,而机器翻译在技术上很难规定指代的具体内容,即便海量的数据“学习”以后,也难以应对千变万化的指代对象。这种尴尬的结果其实可以追溯到中英两种语言实现衔接的差异。英文用指示代词,而中文常用具体名词指代上文内容。所以,英汉互译中指示代词的处理上,人工翻译是难以替代的。此外,两种机器翻译还有些小问题,比如谷歌机器翻译中两段引文合并后,波浪线处多了一个引号;百度翻译中波浪线处的“在”也出现得莫名其妙,这都是机器容易出现“小毛病”的佐证。
  五.名词化
  名词化指的是其他词类形成名词的过程,或者是指分句派生出名词词组的过程。名词化是信息类文章中常见的语法现象,名词化结构的背后常常是一个动词结构。
  (P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.
  R: 还有人担心,日本央行(BoJ)可能会在2018年晚些时候缩减一部分极端激进的刺激措施。
  G: 日本央行也可能在2018年晚些时候缩减一些超激进的刺激措施。
  B: 还有一种紧张情绪,即日本央行可能在2018年底缩减其部分激进刺激计划。
  原文中的there is nervousness,其深层的意思是people feel nervous about …,人工翻译很准确地抓到这个意思。从两种机器翻译的对比看,谷歌翻译出现漏译;百度翻译虽然没有漏译,但是译文差强人意,究其原因是被原文“有”的表层结构限制了。名词化涉及语义理解,需要看透表面的结构,抓住深层次的动作含义,这也许是目前机器翻译比较难突破的问题之一。
  从人工翻译与两种机器翻译的对比可以看出,人工翻译依然优势明显,不可替代,而谷歌和百度翻译各有优缺点。百度在常用搭配的选择上超过谷歌;而谷歌收录的财经类词汇超过百度,百度需要更多的提高数据库的专业化程度。而对于长难句的处理,百度倾向于保留原文结构,而谷歌则倾向于拆分结构。尽管长句翻译一般是用拆句法,但是如果拆了以后出现漏译错译,则是得不偿失,所以需要人工翻译审核把关。神经网络机器翻译的技术虽然大大提高了机器翻译质量,但是仍然存在一些低级错误,以及翻译质量不高的问题,人工翻译,尤其是高级笔译和审校依然是不可替代的。
  参考文献
  [1]Wu, Y., M. Schuster, Z. Chen et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.
  [2]孙茂松,周建设.从机器翻译历程看自然语言处理研究的发展策略.语言战略研究,2016(6):12-18.
  [3]刘洋,神经机器翻译前沿发展.计算机研究与发展.2017,54(6):1144-1149.
  [4]张美芳.文本类型理论及其对翻译研究的启示.中国翻译,2009(5):54-55.
  [5]原传道.英语“信息型文本”翻译策略.中国科技翻译,2005,18(3):50-52.
  [6]孙谨慎.基于文本类型理论的机器翻译研究.中国科技翻译,2016(3):27-29.
  [7]罗宾·威格尔斯沃思.全球债市抛售加剧.http://www.ftchinese.com/story/001
  076136/ce#adchannelID=1100.2018-2-1.
  [8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.
  [9]Halliday, M.A.K
其他文献
运用参与式观察法对“在线健身”视频直播的发展现状进行分析,研究认为:全民直播时代“在线健身”视频直播的实践动因表现在新媒体技术的推动、国家政策的大力支持、“在线健身”产业的兴起与快速发展、年轻用户的消费诉求以及新冠肺炎疫情的影响。“在线健身”视频直播的运营方式包括课程教学方式、互动交流方式、线上营销方式和维系客源方式。内容同质化严重、主播专业素养较低、监管力度薄弱、受关注度不足,是全民直播时代“在线健身”视频直播存在的主要问题。其未来的发展路向如下:丰富科学健身内容、完善主播审核制度、健全直播平台监督体系
伴随我国自闭症谱系障碍成人数量日渐增多,其就业困境也越发引人关注。公共图书馆作为社会公共服务机构,应积极探索与民生公共服务协同发展的新模式,进一步拓展深化残疾人服务。在深刻剖析我国公共图书馆自身现状和外界环境的基础上,运用态势分析对公共图书馆开展大龄自闭症群体就业支持服务的优势和障碍、机遇和挑战等要素进行系统研究,并在此基础上提出相应的服务策略,以期为我国公共图书馆开展相关支持服务提供有益启示。
摘 要:文章厘清长期混用的个人信息去识别化、匿名化、假名化、去标识化的内涵外延,结合域内外建规立制的发展脉络,搭建动态平衡个体隐私安全与数据充分利用的层级治理方案。充分论证迭代算法有可能重新识别严重不完整的零散数据集,客观上难以达致无法识别且不能复原的匿名状态,亟待有条件免除数据处理者在符合去标识化标准下的同意获取义务。通过基于风险管控搭建的个人信息规制模式、隐私保障方案和以数据利用为核心的权属机
摘 要:图书馆虚拟空间是近年来图书馆综合应用新一代信息技术所构建的一种图书馆创新服务空间,成为了读者数字阅读之新选择,在国内外已经有了一定的建设实践。图书馆虚拟空间由场景空间、虚构空间与社会空间所组成,在服务导向、服务方式、服务效果等方面与传统的图书馆数字空间及图书馆实体空间有着一定的差异性。人机交互技术将在未来的图书馆虚拟空间建设及服务中得到广泛应用。  关键词:图书馆;虚拟空间;人机交互;服务
内容摘要:21世纪的学生生活在一个相互联系且迅速变化的世界。全球化能力是学生能够适应未来全球化社会的关键能力。本文就全球化能力的内涵及其维度,浅谈如何培养全球化能力。   关键词:全球化能力 多元文化 培养策略  当今世界在合作与冲突中凸显了其互联互通的本质。复杂性与多样化的社会形态给21世纪的学生带来前所未有的机遇与挑战。2020年,一场百年未见的全球大流行病席卷全球。后疫情时代,如何使学生具备