论文部分内容阅读
句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依存描述。宾州中文树库(Penn Chinese Treebank,CTB)是国内外研究人员公用的短语结构树库,但是CTB是短语结构树库,而且没有标明每个短语的中心子节点,所以必须首先将CTB转换为依存结构树库,然后基于转换后的CTB才能进行中文依存关系解析。本文首先根据CTB中的短语结构,通过大规模语料的分析和汉语句法的特点,总结出来中心子节点过滤表,通过中心子节点过滤表进行宾州中文树库的短语结构向依存结构的转换,以便为后续实验的学习和测试提供语料。实验采用了CTB 5.0宾州中文短语树库,利用中心子节点过滤表把短语结构向依存结构转换之后,本文随机抽取了CTB5.0语料中的200句,进行了人工的依存关系标注,测试正确率为99.95%。然后本文采用考虑远距离的确定性Nivre算法和基于根节点的确定性Nivre算法,进行了依存结构的宾州中文树库学习和测试,依存关系的正确率分别为65.43%和74.35%。考虑远距离的依存的确定性Nivre算法,在原有Nivre算法的基础上,根据汉语语法的特点适当地增加了对远距离依存关系的判断;基于根节点的确定性Nivre算法,可以将原句切分为两个较简单的分句,再对每个分句利用考虑远距离依存的确定性Nivre算法进行依存关系解析,既可以降低解析难度,又可以避免出现跨越根节点的依存关系。最后,本文分析了词典大小与依存关系解析正确率的关系。词典是为支持向量机提供词的特征所组成的字典,发现当词典为所有词的时候,依存关系识别的精确度并不是最高,而词典的容量为9000词的时候,正确率是最高的,然后随着词典的容量逐渐增大,正确率也逐渐降低,同时依存关系解析的代价变得很大。