语言学视角下的谷歌神经网络机器翻译错误类型研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:tinnawang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经网络机器翻译是一种端到端的编码-解码结构,通过深度学习神经网络获取自然语言之间的映射关系。神经网络机器翻译作为机器翻译的最新发展阶段,较之传统基于短语的机器翻译,其输出结果在忠实度与流畅度方面有了显著提升,谷歌神经网络机器翻译更是在多个方面取得了重大技术突破。然而,谷歌神经网络机器翻译中仍然存在许多问题,译文质量仍待提高。本文选取《贵州省投资政策摘编》这一政府类文件作为素材,截取其中部分段落以文档形式上传至谷歌在线翻译平台(https://translate.google.cn/),并用所得英译结果作为本次研究对象。本文从语言学角度出发,在错误分析理论框架下,通过对原文进行语域分析,在小句层面对比原文和译文的概念意义、人际意义,在语篇层面对比原文、译文的语篇意义,以发现谷歌翻译输出结果中的概念意义、人际意义及语篇意义错误。在整合、参考五种通用翻译错误分类的基础上,本文从忠实、通顺、风格三个角度将发现的错误归类,最终得到三个大类、二十个次类。本文研究结果显示,1)英语、汉语分属不同语系,汉语是意合语言,短语、小句主要依靠意义而非连词连接,无明显的逻辑关系,而英语是形合语言,句内成分由介词、连词、从句等手段连接,句子之间通过连词、借代、代替、省略、同/反义词、重复等词汇、语法手段连接,具有明显的逻辑关系。两种语言的显著差异为谷歌神经网络机器翻译的篇章翻译带来了困难;2)虽然谷歌神经网络机器翻译相较于传统机器翻译有了明显进步,但它处理的仍然是经过高度形式化、抽象化的语言,语言处理的关注点仍然在于句子结构以及句子的生成与转换,很少关注句子之间以及篇章层面的语境,因而在利用语境正确识别原文信息、断句、选词、风格规范等方面表现不佳。此外,谷歌表现不够稳定,导致了翻译不统一、句内单词大写等错误的出现;3)谷歌神经网络机器翻译训练所使用的语料库中存在译文质量参差不齐、同一术语有多种译文的情况,这也导致了谷歌神经网络机器翻译表现不佳。针对以上发现,本文从人工干预和机器翻译技术进步两方面提出机器译文质量改进建议,包括:以增加句子逻辑主语、调整句子结构以突显逻辑关系为重点的译前编辑,以纠错、润色为核心的译后编辑,以及在技术层面上规范常用术语的翻译、设置固定句型翻译模式等。同时,笔者认为人工译员应该与机器翻译进行合作而非竞争,建议人工译员向高端路线转型。
其他文献
本文以龙虬庄遗址的文化遗存和自然遗物为主要研究对象,运用地层学、类型学的相关理论知识,对所涉及到的遗址的物质遗存重新进行系统的分析、整理。引入央地关系模型,分析龙
当前社会信息化、自动化、智能化快速发展,信息的安全性越来越重要。随着国家电网电力公司“三型两网、世界一流”战略目标的提出,打造枢纽型、平台型和共享型企业,建设运营
从国家政策的导向、社会发展的要求以及幼儿身心发展的特点来看,在幼儿园教育中,加强幼儿的社会性教育具有重要的社会人文价值。音乐活动作为幼儿园教育中艺术领域的重要组成部分,在轻松愉快的氛围中,律动、歌唱、器乐等学习中蕴含了众多社会学习的契机,是促进幼儿社会性发展的重要手段。主题背景下音乐活动,融合了其他领域的经验,在教育内容、教育方法以及教育过程中具有整合性的特点,更有利于幼儿社会性的发展。本文的研究
在数据大爆炸的时代,如何有效地分析和管理这些数据信息变得尤为重要,而聚类分析是人们对数据进行分类的重要技术。它不仅可以作为一个独立的工具使用,进行数据的预处理、分
随着全球经济一体化进程加快,中国改革开放进入全盛阶段,越来越多的外资企业和国际机构开始进驻中国,开展商业活动和公益慈善事业。作为一家国际非盈利慈善机构,环球健康与教育基金会将发展中国家的人们作为服务对象,在中国地区也有较多的合作伙伴,比如中国博物馆协会、中国野生动物保护协会,中国残疾人福利基金会等。为了能在中国实现更加长足的发展,帮助更多需要帮助的人,环球健康与教育基金会特向笔者所在实习公司提出了
随着基于位置社交网络(Location-based Social Network,LBSN)的蓬勃发展,位置预测是近几年学术领域和工业领域中的重要研究问题。位置预测在许多领域中发挥着重要的作用,人们
党的十九届五中全会提出"构建以国内大循环为主体、国内国际双循环相互促进的新发展格局",这是适应国内外环境变化和经济发展趋势的必然选择和客观要求。新发展格局下以扩大
行人检测是自动驾驶、机器人、智能视频监控等领域的关键技术,也是计算机视觉任务中的重要组成部分。近十年来,从早期传统手工特征方法到现今主流的深度学习方法,行人检测技
目的:通过回顾性分析接受不同照射剂量进行新辅助同步放化疗(CRT)治疗的局部晚期直肠癌(LARC)患者,探讨不同剂量方案对于患者临床疗效、毒性反应及生存情况的影响,评估较低剂量方案的有效性及安全性,并分析影响总体预后的相关因素。方法:回顾性分析2010年6月至2015年12月在浙江大学附属邵逸夫医院接受新辅助放化疗的LARC患者的临床资料。259例患者根据放疗剂量分为42-44Gy(A组,31例)
《殷虚书契解诂》是吴其昌研究甲骨文的代表之作。世人每提及吴其昌,必说到其专著《殷虚书契解诂》。但尚未有人对这本甲骨文专著做一个系统性的分析与评价。本文以《殷墟书契解诂》为对象,试图从考释方法、考释特点以及考释价值与不足等多个方面对这本书进行分析与研究。文章除绪论与结语外,主要分为三个部分:第一部分,探讨吴其昌在《殷虚书契解诂》中考释甲骨文所运用的方法。此部分将从据形考释、据音考释以及据义考释三个层