论文部分内容阅读
随着社会信息化进程日益提速,人们越来越强烈地希望用自然语言和计算机进行交流。要做到这点,就必须让计算机“读懂”并“理解”由人类自然语言所描述的信息。在任何语言中,词语搭配都是言语组装链条上的重要环节之一。大量收集真实语料中的词语搭配无论对于语言教学还是自然语言处理都是十分重要的。词语搭配抽取是自然语言处理领域的一项基础性课题,也是智能信息处理的重要方向。目前,国内外对词语搭配抽取的研究多集中于主谓搭配、动宾搭配、形宾搭配等。已有的抽取方法分为三类:基于统计的方法、基于规则的方法以及统计与规则相结合的方法。
本文围绕英语介词搭配的抽取方法开展研究,提出了从文本语料库中抽取出“动词+介词”和“形容词+介词”2种类型的搭配方法。本文完成的研究工作主要包括:
(1)对现有词语搭配抽取方法和常用统计指标进行了深入研究,在此基础上提出了自己的研究思路:首先采用已有词语搭配抽取方法完成介词搭配抽取任务;对于抽取效果不理想的情况,再针对性地加入其他方法来抽取英语介词搭配。
(2)借鉴已有词语搭配抽取方法,提出了一种用于英语介词搭配抽取的方法,并通过实验研究了4种常用统计指标在英语介词搭配抽取中的应用。最终本文采用加权互信息作为统计指标来抽取英语介词搭配。
(3)针对实验中出现的典型错误问题,深入分析了错误搭配产生的原因,引入了“搭配窗口”和自定义规则来改进之前提出的英语介词抽取方法。
(4)研究了在英语介词搭配抽取中采用“逐步逼近”法选取最佳阈值的问题。
(5)提出基于混合策略的英语介词搭配抽取方法,并从BNC语料库中选取测试语料对其进行测试。“动词+介词”类型搭配抽取的测试结果为:准确率83.33%、召回率57.56%、F值68.10%;“形容词+介词”类型的搭配抽耿的测试结果为:准确率77.83%、召回率53.34%、F值63.29%。
本文研究工作为英语介词搭配抽取研究探索了一条新路径,对自然语言处理领域的其他相关应用研究也具有参考价值。