论文部分内容阅读
机器翻译是自然语言处理领域中的一个重要应用,它几乎包含了自然语言处理的所有技术。经过若干年的发展,机器翻译研究已经取得了很大的进展,出现了许多机器翻译方法并产生了很好的效果,但是,机器翻译质量仍然和人们的期望相距甚远。随着国际间交流的日益频繁以及互联网的迅速发展,现代社会日趋国际化,它使得人们对机器翻译的需求日益迫切。机器翻译不仅仅在满足人们的日常需求上具有重要意义,在学术领域,在商业、军事等领域,同样具有重要的意义。因此,机器翻译研究一直是自然语言处理中备受关注的一个研究课题。
由于自然语言的复杂性,一方面,人们对自然语言本身的规律还没有完全掌握;另一方面,现有的各种机器翻译方法、理论虽然解决了机器翻译的一些问题,但它们还存在很多的缺陷。本文结合作者若干年来对机器翻译研究的实践和体会,对机器翻译中的若干问题进行了深入的研究,其中包括机器翻译所面临的问题和现有机器翻译技术在解决这些问题时的优势和不足、机器翻译的体系结构和实现方法以及混合技术在解决汉语分词及汉语句法分析中的应用等。本文的主要工作有:
(1)深入分析了机器翻译所面临的问题以及规则方法、统计方法和实例方法的理论背景和实现技术,并总结各种方法在解决不同问题上的优势和不足。在此基础上,提出我们研究机器翻译的基本思路和处理原则;
(2)针对机器翻译面临的问题,结合各种翻译方法的优势,提出了一种基于多层次融合的机器翻译系统框架,该框架充分利用了现有一些方法的优势,在机器翻译的各个层次上把它们有机地结合起来。该系统框架中,各组成部分之间具有层次性、互补性、可扩充性和相对独立性的特点;
(3)针对汉语分词交集型歧义这一汉语分词中的难点问题,结合规则方法和统计方法在解决此问题上具有的优势,提出一种规则和统计相结合的交集型歧义消歧混合模型,利用消歧规则库和二元统计语言模型对交集型歧义进行消歧处理;
(4)研究了汉语分析相关的句法理论,提出一种层叠式的汉语浅层句法分析技术,它基于一种面向汉语分析的汉语短语分类体系,通过从树库中获得的短语构造规则进行各层次汉语短语的识别。