论文部分内容阅读
机器翻译可以说是计算机出现以来人们的梦想和追求。由于机器翻译极具研究的挑战性和应用的迫切性,而被列为当代科学技术十大难题的之一。特别是在全球化、网络化的浪潮中,如果说语言是数字化地球的疆界,那么机器翻译就是打破疆界、消除隔阂、促进人类文化交流与思想传播的必不可少的技术。
本文通过对机器翻译发展艰难历程的总结和反思,针对基于规则、基于实例、基于统计等机器翻译方法在实用化过程中遇到的各种问题,探讨了从技术攻关到需求服务,从数据驱动到知识管理,从语言分析到信息转换,从难点切入到全过程帮助的转变过程,提出了基于知识管理的交互式机器翻译系统——翻译工作室的设计思想和理念;并围绕翻译工作室的设计与开发,突出强调了知识管理和为用户服务的思想对机译发展的迫切性和重要性;阐述了在未来的机译发展中各种方法相互融合,各种技术相互渗透,语言资源的保护和整合,以及各种阶段性成果的应用将更加广泛、灵活、具体等发展趋势。
本文的工作紧紧围绕着机器翻译和知识管理的融合,翻译工作室的设计与开发而展开。在总结和借鉴前人的有关工作基础之上,创造性地提出了一些新的思路和处理技术,取得了一些研究成果,其中主要包括:
(1)提出了基于知识管理的交互式机器翻译系统的设计思想和理念。强调以人为本,以知识为核心、以服务为驱动的面向全过程的交互式翻译。通过知识管理与机器翻译的融合,强化翻译知识的动态获取和共享应用,为用户提供多层次的更有效的帮助;并通过与用户的结合形成了完整的知识循环系统。在翻译工作中,系统提供尽可能多的翻译参考知识给用户,用户利用自身的经验知识进行判断并应用,与此同时系统通过人机交互的过程获得反馈,进而完善系统内部的知识结构和应用模式。
(2)提出了一种基于本体(包括通用本体和领域本体)的翻译知识库体系构建方法。该方法以本体为核心进行知识库的组织和构建,构成了一个多层次(词、短语、句子、篇章等)与多用途(语义计算、知识获取、句法分析、人机交互等)的知识系统,成为了翻译工作室的核心资源,为实现知识管理与机器翻译的有机结合奠定了基础。
(3)本文在以知网为基础的航空领域本体基础之上,提出了一种新的基于本体的语义(概念)相似度和相关度计算方法。该方法充分利用了概念定义中丰富的语义信息进行语义计算,与以往方法相比,实验结果得到了明显改善,更合理和有效。
(4)从动态获取双语翻译知识的需求出发,提出了一种基于互联网的双语术语的动态聚合技术。该技术利用互联网上丰富的多语资源,采用简捷实用的匹配、分解和部分枚举方法,通过检索原语言来获取目标语言的术语表示。
(5)受统计机器翻译评测的BLEU方法启发,提出了一种基于N元语法的相似语段获取技术。该方法比传统的基于词的方法更精确,比句法分析的方法更简捷,利用统计数据就能完成评价,适合于多层次(句子级、语段级及篇章级)的语言单位间的相似度评价。该方法本身与语种无关,通用性强,在实验中取得了较好的效果。
(6)本文实现了一个基于机器翻译和知识管理融合理念的原型系统——翻译工作室。在多种应用环境试验中取得了良好的效果,体现了知识管理和人机交互在面向全过程辅助机器翻译中的重要性和有效性以及系统的实用性。
综上所述,本文在理论方法和技术应用的探索基础上,在翻译工作室系统的实现过程中较好地体现了机器翻译和知识管理的融合,在以知识为核心的机器翻译方法的研究中进行了有益的尝试。