论文部分内容阅读
句法分析是自然语言处理的重要任务之一,近年来得到广泛重视,在机器翻译、信息检索、自动文摘等领域有着直接的应用。依存关系解析是句法分析的一个重要方法,依存关系可以明确地表明词与词之间的句法依存关系,并方便地转化为语意依存描述。词是句子结构中的最小元素,词与词之间的依存关系解析可以表示词间的深层联系,本文在基于词的基础上进行依存关系解析。目前,英文依存关系解析与日语依存关系解析已经取得了较好的研究成果。中文的语法结构不同于其他语言,依存关系解析较复杂。目前的中文的依存解析方法主要分为两种:基于转移的方法和基于图的方法,基于转移的方法的主要代表方法是Nivre算法,而基于图的主要代表方法是最大生成树解析算法。Nivre算法是一种确定性的解析方法,基于待解析词对的周边特征进行解析,采用贪婪算法,在每一步都寻求局部最优解,中间结果可以用于随后的解析。最大生成树解析算法是基于整句的依存关系树进行解析,搜索的是全局最优解,最大生成树未解析完毕,不能确定任何中间结果。本文根据Nivre算法和最大生成树解析算法的互补关系提出了两种结合方法。一种是以最大生成树算法为基础,通过Nivre算法结果的存在性修正最大生成树边值的算法,称为基于存在性影响因子的中文依存关系解析;另一个结合方法是以最大生成树算法为基础,通过Nivre算法结果的依存度修正最大生成树边值的算法,称为基于依存度影响因子的中文依存关系解析。实验采用宾州中文树库5.0,实验结果表明,本文提出的两种结合方法均好于原单一算法。基于依存度影响因子的算法的解析效果最好,精确率达到86.87%。