论文部分内容阅读
本文面向汉英机器翻译,研究了汉语上下文语境的表示与应用,并将研究成果应用于汉英机译系统ICENT中。 在汉语句法分析和语义分析的基础之上,本文建立了汉语上下文语境模型CCM(Chinese Context Model,CCM)。CCM包括上下文语境知识的表示、获取和管理三个部分,构成了一个知识系统。依据上下文语境的动态变化性,CCM采用一种结构化的语义网络表示上下文语境知识,称为概念信息体关联网络CIURN(Concept Information Unit Relation Network,CIURN),并建立了动态获取上下文语境知识以及动态地管理和维护上下文语境知识的机制。CCM具有系统性、实用性、动态性、结构性和可扩充性的特点,其上下文语境知识包含句法信息、语义信息和句子之间的连贯信息,为分析汉语句子与上下文语境的关系提供了较好的支持。CCM将汉语上下文语境知识的获取与汉语分析纳入了同一个体系,建立了一种汉语上下文语境表示与应用的基本模式。 基于汉语上下文语境模型CCM,本文研究了汉语事件时间信息的分析、主语省略句的处理和名词短语的定指性判定问题。 本文建立了汉语事件时间信息框架TIFCE(Temporal Information Frame of Chinese Event,TIFCE),采用时制和时体两个元素描述了汉语事件的时间信息。基于CCM提出并实现了一种汉语事件时间信息分析方法,处理了汉语时间引用现象,获得了汉语事件的时间信息。该方法通过分析汉语时间短语的时间信息与时制,借助时间短语与事件之间的时间管辖关系,获得了汉语事件的时制;同时通过与汉语事件时体模板进行模式匹配获得了事件的时体。为给英语动词时态的正确生成提供信息,本文建立了汉英时间信息转换映射毛,将TIFCE中汉语事件的时间信息映射为英语动词的时态。通过对简化的新闻报道类汉语篇章语料进行实验,取得了较好的实验结果。 汉语篇章中主语省略现象给英语译文的主语以及其它句法成分的正确生成带来了许多困难,为此本文基于CCM提出并实现了一种汉语主语省略句处理方法。处理过程分为主语省略的识别和主语省略的恢复,提出了一种在汉语句子语义结构中识别主语省略的方法和一种从句法、语义和上下文语境多方面综合判断的“候选-选择”主语省略恢复策略。在实验语料中取得了较好的分析结果。 为判定汉语篇章中名词短语是否定指,为给英语译文冠词的正确生成提供信息,本文基于CCM提出并实现了一种汉语名词短语定指性判定方法。本文确立了汉语名词短语间的定指关系,提出了一种“候选-比较”汉语名词短语间定指关系建立方法,进而判定了名词短语的定指性。实验在名词短语为特指的条件下判断其定指性,验证了方法的有效性。 通过应用汉语上下文语境模型CCM及有关上下文分析方法,本文扩充了基于国防科学技术大学研究生院学位论文中间语言的汉英机译系统ICENT。原有系统主要以单句为对象进行句法分析和语义分析,扩充后的ICENT系统可对汉语句子进行上下文分析,其上下文分析分为三个子系统:时间信息分析子系统、主语省略处理子系统和名词短语定指判定子系统,主要解决英语动词时态的生成、省略主语的确定和定冠词的添加等问题。通过对ICENT系统原有中间语言进行扩充,在中间结构中表示了上下文分析结果,为英语生成提供了上下文语境信息。 本文建立了汉语上下文语境模型,研究了汉语事件时间信息的分析、主语省略句的处理以及名词短语定指性的判定问题,并基于上下文语境模型提出和实现了相应的上下文分析方法,取得了较好的实验结果。目前,这些上下文分析方法还只是在受限语料中进行了测试。在今后的研究工作中,我们将对汉语篇章语言现象及其分析方法继续进行深入的研究,进一步扩大适用语料范围,提高汉英机器翻译译文的质量。