论文部分内容阅读
句法分析是自然语言处理的基本任务之一,是语义理解、问答系统等自然语言理解任务实现的基础。本文根据已有的现代汉语虚词用法知识库,初步探讨了基于汉语虚词用法的短语边界识别在句法分析中的应用,将虚词用法应用于不同短语边界识别方法;在此基础上进一步提出了基于短语边界的句法分析模型Phrase_Based Parser。在CTB8.0数据集上进行的实验表明Phrase_Based Parser能够改正因某些短语边界错误而导致的错误句法树,平均准确率提升了6.9%。本文的主要研究工作如下:1)根据现代汉语虚词用法知识库对CTB8.0(Chinese Treebank8.0)中的虚词分布进行了统计分析,统计显示在CTB8.0的全部词中虚词占有很重要的比例。利用CRF模型对CTB8.0中的虚词用法进行自动识别标注。使用Berkeley Parser对CTB8.0的原语料进行句法分析,对得到的句法树进行错误分析,发现包含虚词成分的短语边界平均错误率达40.76%,可见短语边界的正确性将会影响句法分析的准确率。2)构建基于CTB8.0的语料库。本文构建了基于CTB8.0的标准短语边界标注语料库,设计了一组短语标记符号,并构建了基于CTB8.0的短语标记树库。3)研究基于虚词用法的规则和统计模型在介词短语、连词相关短语以及包含助词“的”的短语边界识别中的应用,实验结果表明,基于规则的短语边界识别结果平均准确率达到47.06%;基于CRF模型的短语边界识别结果平均准确率达到了73.69%,基于CNN模型的短语边界识别结果平均准确达到了75.54%。4)提出了一个基于短语边界的句法分析模型Phrase_Based Parser,在CTB8.0的数据集上的实验表明,对包含介词短语的句子,Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了2.72%,对包含连词相关短语的句子Phrase_Base Parser的句法分析结果比Berkeley Parser的结果F值提高了1.32%。5)提出了一个基于虚词用法的句法分析模型Usage_Based Parser,将短语边界识别的结果使用Usage_Based Parser进行句法分析。实验结果表明,介词“据”的介词短语的句法分析结果准确率提升20.69%,连词相关短语的句子句法分析结果准确率平均提升6.9%。