论文部分内容阅读
语义解析(semantic parsing)指的是将自然语言句子转换成其意义表示的过程。近年来,英文语义解析的研究成果丰硕,特别是基于组合范畴文法(combinatory categorialgrammar, CCG)的语义解析方法取得了不俗的结果。相比英文,中文语义解析研究的历史还比较短。目前,中文语义解析器的构建方法主要基于手写规则和模板,使用机器学习方法的研究还很少。除此之外,中文语义解析的应用也基本集中在地理信息系统(Geographic Information System,GIS)领域。中英文之间的差异使得许多优异的英文语义解析方法无法直接应用于中文。本文尝试将基于组合范畴文法的语义解析方法应用于中文,并针对中文的特点进行改进。主要工作如下: (1)将英文语义解析数据集GeoQuery翻译成中文,并手工分词。GeoQuery数据集包含880个美国地理查询实例。每个实例由自然语言句子和对应的意义表示组成。 (2)将基于组合范畴文法的语义解析方法应用到中文上。本文采用因子化的概率组合范畴文法(probabilistic combinatory categorial grammar, PCCG)作为语义解析器的模型。该模型使用词典归纳过程归纳CCG词典,使用参数估计过程从数据集中学习参数。在中文GeoQuery数据集上进行实验,语义解析器的F1值仅为60.08%,远低于该方法在英文上的结果。这表明需要针对中文特点对基于组合范畴文法的语义解析方法进行改进。 (3)针对词典归纳过程产生较多候选词项的问题,提出逐层切分的词项生成方法。原始方法采用了基于合一的词项生成方法,该方法会产生大量的候选词项。过多的候选词项会导致解析器性能下降,训练时间变长。实验表明,使用逐层切分的词项生成方法后,语义解析器的F1值提升至76.56%。 (4)针对中文中长距离依赖现象普遍的问题,提出了词组合并的方法。在使用逐层切分的词项生成方法时,词组合并对语义解析器的性能提升很大。实验表明,使用词组合并方法后,语义解析器的F1值提升至83.49%,超过了原始方法在英文上的实验结果。