论文部分内容阅读
自然语言理解主要有两种途径。一种是利用各种语言规则对自然语句进行分析,得到句中各组成成分间的关系结构。另一种是基于数据分析方法,被称为自然语言理解中的“经验主义”,或称实证方法,它主要是利用大规模的语料库,采用概率的方法得到各语言现象共存的概率,在分析新语料时以共存概率的大小来确定语言成分之间的关系。基于规则的理性方法,本质是一种确定性的演绎推理方法。其优点在于根据上下文对确定事件的定性描述,能够充分利用现有的语言学成果。缺点是对一些不确定的事件则无能为力,同时规则的相容性和适应性也存在着限制。基于统计的方法是一种经验主义的方法,其优势在于它的全部知识都是通过对大规模的语料库加工分析而得到的,可以获得很好的一致性和覆盖性。基于统计的方法是一种非确定性的定量分析方法,这种定量分析是基于概率的,因此必然会掩盖小概率事件的发生。本文考察一种新的实证途径,采用结构化的知识表示,应用ILP方法解决自然语言语句切分分析器的获取问题。 自然语言语义结构的分析是自然语言理解的基础,可分为二个层次,其一是研究能充分表达自然语句内各成份间语义关系的表示方法;其二是研究如何将自然语句转换成某种期望的语义表示形式,即在自然语言语句和其对应的语义表示间建立正确的映射,完成这种映射也称为自然语言语句的语义切分分析,这也是本文研究的重点之一,本文给出了一种基于ILP算法的自动语义切分器的构建系统ICASP,并通过一个切分示例来说明ICASP构建的切分器将自然语句映射成论旨角色语义表示的方法途径。论旨角色语义分析的基本思想是:在句中起中心作用的动词,同参与动作的各个成分个体一起构成句子的“语义格”框架,以此描述自然语句中各组成成分间的深层语义关系,表达施事(谁做的)、受事(对谁做的)、工具(用什么工具)等概念所表示的语法语义关系。 “切分”一词常用来表达将句子转换成能够明确描述句子语法关系的一种层次结构,依据某一上下文无关文法,自然语句可能可被切分为由句子成分加入适当的标注组成的层次结构,然而局限在语法结构上的切分只是自然语言语句理解