论文部分内容阅读
句法分析技术是信息处理领域的核心技术之一,也是难点所在。本文认为,词语搭配和句法结构之间有着密切的联系,将词语搭配知识加入到句法分析过程中有助于句法分析精度的提高。本文以词语搭配库和句法分析器互建的思想为指导,在研究中引入了哈工大、伯克利、斯坦福三所大学研制的句法分析器;在对比三个句法分析器分析结果的基础上,分别提出了两种大规模词语搭配的自动获取方法。第一种方法基于依存关系的句法分析,比对句法分析结果中的相同词对;第二种方法基于短语关系的句法分析,比对句法分析结果中的相同层次。实验表明,词语搭配的两种自动获取方法都能够有效的获取大规模词语搭配,其中基于短语关系的获取方法可以从14年新华社语料中获取得到约500万词语搭配型,抽样搭配精度约84%。使用自动获取得到的词语搭配资源,本文选取了四个搭配筛选条件用于词语搭配的优选,在搭配精度和搭配规模之间找到一个最佳的组合优选方式,并以此构建了一个包含十四个数据项的、百万搭配型数量的词语搭配知识库,知识库的抽样搭配精度超过90%。通过对知识库中的十四个数据项分别进行个体分析和关联分析,进一步挖掘了搭配类型、搭配次数、搭配距离等搭配相关属性之间的内在规律和联系。在建设完善了大规模、高质量的词语搭配资源之后,本文将词语搭配知识添加进基于语法功能匹配的句法分析算法,构建了一个基于词语搭配知识和语法功能匹配的句法分析器(CGFM)。使用新华社新闻语料作为开放测试语料,在单句法分析器的个体性能评测中,CGFM分析器开放测试的句法分析F值约为80%,添加了词语搭配知识之后的句法分析器相较之添加以前,句法分析的F值最多能有近4%的性能提升。在CGFM分析器、哈工大分析器、伯克利分析器、斯坦福分析器这四个分析器的横向性能评测中,CGFM分析器的表现优异,在短语分析评测和依存分析评测中均处于领先。