论文部分内容阅读
歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点上,机器很难自动地区分正确的附着位置。这种情况不仅出现在汉语的句法分析任务中,同时在英语自然语言分析中也会遇到。但是介词短语附着消歧问题只出现在英语或者其他的西方语言中。本文主要探讨英语中经常出现的介词短语附着消歧问题。很早学者们就将其看成一个模式识别任务,但是对它的形式化处理却不尽相同。现在广泛地将介词短语附着消歧问题简化为一个二值N和V的分类问题,它分别对应介词短语附着于名词和动词。因此我们只需要设计一个分类器就能很好地处理介词短语附着消歧任务。首先,我们介绍了自然语言处理的国内外研究现状,以及课题研究的背景及理论基础。同时概述了介词短语附着消歧任务。然后我们引入了n元语法模型并且简单地介绍了几种数据平滑处理方法。其次,详细描述了语义消歧问题,尤其是介词短语附着消歧模型。我们介绍了目前比较流行的几种介词短语附着消歧模型,例如贝叶斯模型,最大熵模型,支持向量机模型,回退模型等。而将重点放在我们提出的基于双阈值直接回退模型上。我们构建了这个模型,并将其在公共的IBM测试集合上进行了测试,实验获得了85.02%的准确率和100%的召回率。我们指出很多学者将介词短语附着消歧问题看成一个独立的任务,通过使用大量的语料,来提升算法的性能,而这个做法并不有利于句法分析任务的解决。实验结果也证明该方法是一种非常有效的消歧方法,并具有理论充分,实现简单的特点。实验也表明,二元组具有充足的信息量对介词短语进行附着消歧处理,而这个结论与之前很多学者的观点不同。最后将这个模型与其他模型进行比较分析,提出了一种潜在的改进方案,即通过增加词类信息和上下文相似性计算来提高模型的准确率。