论文部分内容阅读
介词短语形式多样,位置灵活,是汉语中十分重要的短语类型之一。介词短语识别问题一直都是自然语言处理的研究热点,准确识别介词短语可以简化其所在句子的内部结构,缩小中心词选择范围,降低后续句法分析的难度及复杂度,还可以提高翻译模板的匹配度。本文通过分析介词短语识别研究的难点及研究现状,提出了一种融合简单名词短语信息的介词短语识别方法:首先利用简单名词短语识别模型识别语料中的简单名词短语,并利用规则库对简单名词短语识别结果进行校正,使其更符合介词短语内部的短语形式和特点;然后使用分词融合方法将简单名词短语识别结果融入到语料中;最后采用多层介词短语识别模型分层识别介词短语,并通过双重错误校正系统校正介词短语识别结果。简单名词短语不但可以保留充分的句法信息,还能减少歧义问题,引入该名词短语信息到介词短语识别方法中不但可以简化句子结构,尤其是复杂句子的结构,还可以降低介词短语依赖长距离上下文信息与CRF模型窗口受限的矛盾。多层介词短语识别的方法通过逐层识别句子中介词短语解决了并列型和嵌套型介词短语识别困难的问题。双重错误校正系统首先利用介词的固定搭配校正介词短语识别结果,然后利用错误驱动学习方法生成的转换规则集对校正结果进行进一步修正,该系统结合了语言学知识和统计学方法,改善了统计模型的数据稀疏问题,有效地提高了介词短语的识别结果。实验结果表明,基于简单名词短语信息的介词短语识别方法是有效的。通过对《人民日报》中的7049个介词短语进行五倍交叉实验,其识别的精确率、召回率及F-值分别为:91.54%、91.46%、91.50%,使用双重错误驱动系统校正后,其识别的精确率、召回率及F-值分别为:93.10%、93.02%、93.06%。本文的实验和方法可以为复杂句子的翻译及模板匹配提供帮助。