自然语言处理及其在机器翻译中的应用

来源 :现代语文 | 被引量 : 0次 | 上传用户:cashwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:机器翻译是自然语言处理的一个重要分支,自然语言处理技术与机器翻译研究的结合不仅为人们日常工作生活中各种跨语言需求提供了便利,也对解决其他自然语言处理任务有着启发与借鉴作用。首先概括了自然语言处理的一些基本概念,然后举例说明自然语言处理在机器翻译中的应用,最后展望机器翻译未来发展趋势并进行总结。这有助于加深对自然语言处理以及机器翻译之间关系的认识,旨在为后续的研究提供借鉴。
  关键词:自然语言处理;机器翻译;机器学习
  近年来,自然语言处理(natural language processing)作为根植于语言学、计算机科学和数学等多种学科沃土而成长起来的多边缘学科,成为人工智能中亟需解决的任务之一,同时也是该领域的一个重要研究方向。自然语言处理的飞速发展,为机器翻译研究提供了强有力的支持。当今世界,随着通信技术与互联网技术的迅猛发展、信息的急剧增加以及国际联系愈加紧密,语言交流障碍问题也显得愈加突出,对机器翻译的潜在需求也在逐渐加大(John Hutchins,1986)。在目前人工智能(artificial intelligence)的浪潮下,机器翻译理论、技术与未来发展趋势越来越引人关注(李沐等,2018)。值得注意的是,对自然语言处理技术在机器翻译中的应用、机器翻译是否会代替人工翻译等问题,还存在着诸多片面的认识。
  有鉴于此,本文首先对自然语言处理的概念和主要内容进行简要的介绍,在此基础之上尝试举例说明自然语言处理技术在机器翻译中的应用。在对机器翻译与人工翻译之间的关系进行简要的梳理后提出本文的观点,最后对机器翻译未来的发展趋势进行展望。
  一、自然语言处理概述
  (一)自然语言处理的概念
  计算语言学(computational linguistics),也称自然语言处理(natural language processing),是一门以计算为手段对自然语言进行研究和处理的学科(刘颖,2014:1)。Bill Manaris(1998)曾在《计算机进展》中给出这样的定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。”自然语言处理要研制表示语言能力和语言应用的模型,建立计算机框架来实现语言模型,提出相应的方法对语言模型不断地进行完善,根据语言模型设计各种实用系统,并探讨这些实用系统的评测技术。自然语言处理的概念界定,可以参见图1:
  冯志伟(2010)、张政(2010:2)指出,为了实现计算机对现实生活中自然语言的研究和处理,在自然语言处理技术所应用的各个领域中,一般需要根据具体要求经过以下几个过程:
  1.从语言学角度把自然語言处理抽象为一个语言问题;
  2.把这一问题在语言学上形式化,使之能以一定的数学形式,严密而规整地表示出来;
  3.把这种严密而规整的数学形式表示为“算法”;
  4.根据算法建立自然语言处理的“计算模型”,这样能够使它在计算机上得以实现。
  总的来说,自然语言的具体处理过程可用图2进行展示:
  如图2所示,自然语言处理需要一系列的转换加工过程。在自然语言处理中,不仅需要语言学方面的知识,而且还需要非语言学方面的知识,如心理学、计算机科学、统计学、数学、哲学、电子工程和生物学等。总之,自然语言处理是一门多边缘交叉学科。
  (二)自然语言处理的主要内容
  根据语言学的通常观点,语言可以分为以下几个层次:语音、词汇、语法、语义、语篇和语用。自然语言处理技术在以上各个层次的主要应用,可以进一步细分为下列内容:机器翻译(machine translation)、语音自动识别(sound recognition)、语言自动合成(sound synthesis)、自动文摘(automatic abstracting)、人机对话(man-machine dialogue)、信息自动检索(automatic information retrieval)、术语数据库(term database)、计算机辅助教学(computer-aided instruction)、电子词典(electronic dictionary)、文字自动识别(optical character recognition)、文献自动分类(information classification)等。
  目前,无论是在理论基础、语言资源,还是在关键技术等方面,自然语言处理都有了相当丰富的积累(王萌等,2015)。应当说,上述应用也都有了很大的发展。比如说语音自动识别,即利用计算机对语音作出明确辨认。这一技术可用于翻译的语音识别,也可以用于铁路、民航等无人管理站的问讯系统。又如自然语言理解,也称人机对话,是来研究如何利用计算机让其理解并运用人类语言,最后用自然语言以对话的方式回答人们所提出的问题。百度公司开发的“小度”、微软的“小冰”等都实现了智能人机对话。再如文字自动识别技术,它可以应用到一些扫描软件上,通过对印刷字体甚至是手写的字体进行识别,最终生成相应的电子文档。此外,自然语言处理在翻译领域的应用也越来越广泛。我们知道,在应用翻译领域,人类面对的最迫切、最重大的任务,就是如何解决计算机翻译问题。这也是下文所着要探讨的问题。
  二、自然语言处理在机器翻译中的应用
  (一)机器学习
  自然语言处理的一大特点就是它现在越来越多地使用机器学习(machine learning)的方法来获取语言知识(冯志伟,2010)。机器学习是用来研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科(周志华,2016:1)。具体来说,计算机从大量数据中得出“模型”的算法,也就是前面提到的“学习算法”,然后将经验数据提供给计算机,它就会从这些数据中产生新的模型。最后,当有新数据出现时,计算机就可以基于生成的模型帮助人类做出相应的判断。可参见图3:   图3给我们形象直观地展现了机器学习的工作方式。从图3可以看出,首先,要将大量的训练数据提供给计算机,构建一个初始模型,即模型1。然后,用测试数据对初始模型进行检查,并不断对其进行完善,接着会得到一个训练完好的模型,即模型2。最后,再将新数据提供给模型2,人类就可以通过计算机、利用模型2去作出判断和预测。在此之后,更多的数据,不同的特征,或调整过的参数,都可以用来提升算法的性能表现,使它不断完善。
  (二)机器翻译
  机器翻译,就是使用计算机进行翻译,即把一种自然语言生成另一种自然语言而又无需人类帮助的计算机系统(Hutchins et al., 1992:3)。这里的自然语言区别于人工语言,如计算机编程语言等为实现某些特定目的而创造的语言。李沐等(2018:2)指出,机器翻译是自然语言处理研究的一个分支,它在处理过程中会涉及到很多自然语言处理的经典问题。如数据挖掘及清洗、词字切分、词性标注、句法分析等。此外,机器翻译还涉及机器学习算法中的应用。就此而言,机器翻译是一项复杂的系统工程。
  机器翻译大体可以分为基于规则的机器翻译方法和基于语料库的机器翻译方法。根据建模的不同,基于语料库的机器翻译方法又可以分为基于实例的机器翻译方法、统计机器翻译方法和神经机器翻译方法。
  在机器翻译中,数据也称语料(corpus),也就是说基于语料库的机器翻译都需要大量的语料作为训练数据来训练模型。不同的语料类型被用来训练不同的模型,如目标语言语料用来训练语言模型(刻画句子的流畅度),平行语料用来训练翻译模型(学习、获取翻译知识)等。根据研究需要,本文对李沐等(2018:38)所绘制的统计机器翻译系统框架图进行了改编。具体如图4所示:
  这里就以图4中语言模型的构建为例,来简要说明该过程中自然语言处理的应用。如图4所示,首先,以目标语言语料为训练数据,计算机从中学习知识并根据这些知识建立语言模型。但由于训练数据,也就是目标语言语料的规模具有有限性,无法对所有真实样例数据进行覆盖,所以通常会使用数据平滑(data smoothing)算法来对语言模型进行完善,很多自然语言处理的应用都使用语言模型产出文本,这些模型基于前面出现的单词及语境,被专门训练来预测接下来要出现的单词(Ranzato,M.et al.,2016)。最终语言模型建立后就可以用来估算自然语言中每个句子出现的可能性,从而提高最佳译文的选择质量。
  如前所述,无论是在模型训练还是在概率模型建立的过程中,都会涉及到机器学习算法。机器翻译中各种模型的建立,也都需要各种参数特征来进一步完善它们的算法。由此可见,机器翻译是自然语言处理的一个重要研究方向。通过以上例子,也可以看出自然语言处理技术在机器翻译中的地位可谓是举足轻重。
  三、机器翻译研究的探讨
  (一)机器翻译与人工翻译
  随着人工智能与机器翻译的发展,“机器翻译是否会取代人工翻译”这一话题也引起了热议。胡开宝、李翼(2016)认为,机器翻译与人工翻译之间的关系是互补与互动的关系。具体来说,机器翻译以人工翻译为基础,机器翻译能协助人工翻译,同时也需要人工翻译来进行译后润色。作者建议人工翻译跟机器翻译合理分工,并预测未来将是人机共存、人机互补的时代。祝朝伟(2018:101)指出,“机器取代人是一个伪命题”,机器在处理一些文本时始终离不开人的帮助,它的服务对象永远是人,机器翻译“能够译”但未必像人那般“译得好”,文学翻译等是机器翻译永远也无法胜任的。同时,他也认为,人机结合是未来人类需要努力的方向。
  笔者认为,“机器翻译是否能代替人工翻译”这一问题就像“人工智能是否能代替人类”一样,值得深入探讨。机器翻译与人工智能几乎同时产生,几十年来同呼吸共命运,在各个学科的交汇合作下,在社会经济发展需求的推动下,人工智能已得到非常迅猛地发展。在这种时代背景下,机器翻译也得到了很大发展并逐步走向商品化、实用化(冯志伟,2018)。然而,现在的人工智能仅擅长单项任务,能执行人类简单的指令,即“弱人工智能”。在当前的技术水平下,人工智能还远远不能超越人类。同样,目前的神经机器翻译系统也只是在特定的应用领域(如新闻翻译、日常的会话等)翻译效果较好,如果换到其他领域,效果未必尽如人意。因此,“机器翻译将会取代人工翻译,翻译人员即将失业”这类话都是言过其实,甚至可以说是危言耸听。
  诚如张政(2006:182)所言,机器翻译是人类重建巴别塔的脚手架。机器翻译扮演的只是一个工具的角色,它只是按照人类的意志,辅助人类减少翻译工作的强度和量度的附庸产品。即便将来机器翻译软件的智能水平有了大幅度的飞跃,那也是人类认知水平不断提升的结果。未来要继续促进人文与科技的融合,提高翻译效率,提升翻译质量,建立新型的机器翻译与人工翻译的关系。
  四、自然语言处理应用于机器翻译的研究展望
  从21世纪初,随着电子科技的突飞猛进,机器翻译也驶入了快車道。在数据和算法技术驱动下的机器翻译已取得了巨大的成功。基于计算机技术、自然语言处理技术和机器学习算法的不断发展,未来机器翻译也会不断革新。笔者将自然语言处理应用于机器翻译的未来趋势总结如下:
  第一,数据规模的变迁。双语数据规模越大,翻译质量也就越高,由此构建的模型就可以学习到更为丰富的翻译知识。随着科技的发展,更多的数据可以被收集,虽然这些数据可能并不代表马上就可以用来做训练语料,但是它会给机器翻译带来更多的可能性,避免做更多的数据挖掘,可以利用机器半自动式对语料进行筛选,让技术不断获得提升。
  第二,新算法的变革。算法的变革在机器翻译发展中扮演了至关重要的角色。随着人工智能的迅猛发展,深度学习在机器翻译中也取得了很好的效果。应用深度学习方法而构造的神经机器翻译系统在译文的准确率和流畅度上都有了显著的提高。陈俊龙、刘竹林(2017)提出了宽度学习系统,可以提升训练速度并已呈现出一定的优势。总之,可以看出,随着大计算、大算法的不断推进,神经机器翻译不会是机器翻译的终极,接下来会产生更为先进高效的机器翻译方法。   第三,运算的变化。高性能的计算研究与机器翻译技术相融合,这样翻译质量与翻译性能就会进一步得到提高。比如运算的加速,可能就会缩短语音翻译的延迟;再比如说更多的运算定制就有可能实现更多的运算任务,这些运算任务放到不同的机器翻译产品上就有可能更加方便日常生活中翻译的使用。
  自然语言处理在机器翻译中得到广泛应用,并不断取得新的突破,这不仅为机器翻译研究打开了更为广阔的视野,还为其发展添入了更多的生机与活力,使巴别塔的重建成为可能。本文介绍了自然语言处理和机器翻译的一些基本内容,简要举例说明了自然语言处理在机器翻译中的应用,并对机器翻译的研究进行了探讨。事实上,自然语言处理在其他领域也有着相当多的应用,比如在教育领域就取得丰硕的成果,而人们学习和使用语言的方法对自然语言处理的具体研究也有着相当重要的启示作用(俞士汶、柏晓静,2006)。因此,在知识经济的时代背景下,自然语言处理技术在各个领域的研究应相互借鉴,根据人类的不同需求,结合各种运算任务应用到产品当中去,以更好地服务人类。此外,随着对人类大脑认知机制“黑箱”研究的不断深入,相信机器翻译的质量与效率也会得到显著提高。
  参考文献:
  [1]Chen,C.L.P. & Z.L.Liu.Broad Learning System: An Effective and Efficient Incremental Learning System Without the Need for Deep Architecture [J].IEEE Transactions on Neural Networks and Learning Systems,2017,(99).
  [2]Hutchins,W.J.Machine Translation:Past,Present,Future[M].Chichester: Ellis Horwood Limited,1986.
  [3]Manaris,B.Natural Language Processing: A Human-Computer Interaction Perspective [J].Advances in Computers,1998,(8).
  [4]Ranzato,M.,S.Chopra.,M.Auli. & W.Zaremba.Sequence Level Training with Recurrent Neural Networks[A].International Conference on Learning Representations[C].2016.
  [5]冯志伟.自然语言处理的形式模型[M].合肥:中国科学技术大学出版社,2010.
  [6]冯志伟.机器翻译与人工智能的平行发展[J].外国语(上海外国语大学学报),2018,(6).
  [7]胡开宝,李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译,2016,(5).
  [8]李沐,刘树杰,张冬冬,周明.机器翻译[M].北京:高等教育出版社,2018.
  [9]刘颖.计算语言学[M].北京:清华大学出版社,2014.
  [10]王萌,俞士汶,朱學锋.自然语言处理技术及其教育应用[J].数学的实践与认识,2015,(20).
  [11]俞士汶,柏晓静.计算语言学与外语教学[J].外语电化教学,2006,(5).
  [12]张政.计算机翻译研究[M].北京:清华大学出版社, 2006.
  [13]张政.计算语言学与机器翻译导论[M].北京:外语教学与研究出版社,2010.
  [14]周志华.机器学习[M].北京:清华大学出版社,2016.
  [15]祝朝伟.机器翻译要取代作为人的译者了吗?——兼谈翻译人才培养中科技与人文的关系[J].外国语文, 2018,(3).
其他文献
摘 要:本文以粤北土话和湘南土话中的一部分方言为例,对这一地区出现的特殊音变现象“文读的类推”进行了较细致的分析。“文读的类推”可以认为是在双方言生活的特殊情况下受母语的干扰而出现的音变现象。本文对粤北土话山摄开口一等见系文读音[-o?]([-??])扩散到非见系和二等韵的过程以及湘南土话咸山摄及深臻曾梗摄开口三四等(古代)文读音[ie]扩散到一二等韵的过程进行探究,旨在说明这一地区出现的文读的类
我国半干旱区农牧交错带在地理上有其独特的空间分布和结构特性,在生态上具有显著的生态规律;引入景观生态学这一地理学与生物学之间的交叉学科对该地区区域生态环境特性进行探
目的:使用运动员定值新鲜血建立常规血细胞分析仪和血生化分析仪的辅助校准方法。方法:根据比较实验的不同,总计采集213例(男155,女58)健将级及以上级别男、女运动员静脉血,
本文扼要回顾了风沙流的研究历史;简明评述了颗粒运动特征,风沙流结构,输沙率模型,等研究现状内容;就目前研究中存在的问题,研究趋势等方面作了探讨。
本文以沙区主要饲料灌木林树种毛条,柠条、沙柳,花棒为对象,着重分析其质量,产量等经济性状,将为沙区灌木饲料林的开发和管理提供基本依据。
采用灰色系统关联分析方法对开发区进行土地优化结构评价,结果表明(1)在林-农生产系统中,农作物的选择是提高土地资源转化率和经济效益的基本条件。瓜类作物收益高于粮食作物,瓜类作
近年来.泰州市农业适度规模经营成为土地流转新方向.现代高效农业成为土地流转新目的.土地股份合作成为土地流转新形式。然而。当前还存在一些制约农业适度规模经营发展的因素。
江苏省溧阳市不断提升农业规模化、设施化、产业化、集约化水平,使全市高效农业发展呈现了良好的发展态势。建成“一村一品”专业村107个、“一村一品”专业园114个;全市农业有
语言是民族文化的载体,也是反映该民族文化的一面镜子。通过分析一个民族的语言特点,或多或少我们能了解到这个民族人民的生活方式和思维方式。不同的民族会使用不同的语言,
近几年来,随着江苏省淮安市淮阴区经济社会的快速发展。农村面貌有了很大变化,居住条件、交通条件、绿化、美化、亮化等很多方面得到明显提升。但对照小康标准和新农村建设的要