论文部分内容阅读
汉语分析技术是中文信息处理的基础.目前,汉语词法分析技术已比较成熟,但在词法分析之上的短语分析及句法分析仍然很不成熟.究其原因,主要在于汉语是一种意合语言,语言表达上缺乏相应的语义结构信息,在句法层面上难以得到比较合适的规律,从而很难进行深入的分析.但是,汉语的短语本位语法理论认为:词组和句子的构造原则基本一致.词组被包含在句子里时是词组,独立时就是句子.因此,在句法分析领域,采用分而制之的处理思路,比较而言,更加符合汉语语法语义的基本结构特征.进而,针对汉语短语结构的组块分析技术得到了越来越广泛的应用.在汉语的范畴内,不加严格限制的说,组块就是短语或者词组.所谓组块分析,其基本思想是将完整的句法分析分为两个过程:首先是组块的识别:从句子中识别出组块;其次是组块之间关系的判断:将组块结合成句子.该文介绍了一种基于层叠有限状态自动机的组块分析方法,理论上可以按层次分析出句法结构树,或者句法结构森林.在组块的识别过程中,主要依靠对于汉语短语的主观语言经验,定义分析规则,同时利用分析预处理阶段得到的统计信息计算出局部互信息,用以验证规则匹配后得到的结果.此外,这种组块分析方法还把判断组块之间关系的工作融合在组块的识别过程中,当较高层次的组块被抽取出来以后,其内部较低层次组块之间的关系就确定了.对于该分析系统而言,最重要的子系统是定义规则和确定规则运行序列的语言知识加工模块.该文设计了一些算法策略,用来考察和筛选运行效果较好的规则,同时优化规则运行的序列.这对提高分析器的分析质量有很大的帮助.该文另一个重要内容是定义了一种二元结构处理不同条件下的短语标注,这种处理方法在实践上大大减少了规则的数量,使得对于规则以及规则作用序列的优化成为可能.最后,该文还设计了一种以上述分析器为核心,基于语义理解的知识库系统,它定义了一系列数据结构,用来模拟真实世界的概念表达形式以及概念之间的关系,并以此来记录加入了句法结构标记的中文文本中的语义信息.这必将为自然语言处理的语义研究做出一定的贡献.