论文部分内容阅读
连词是虚词的一种,在现代汉语中,它承担着极为繁重的语法表现任务,对于汉语的语法分析和语义理解有着至关重要的作用。相同的连词在不同的上下文语境中可能表示不同的含义,具有不同的用法。因此,必须对文本中连词的用法进行全面细致的考察研究,人工总结或者机器学习其中的规律并进行形式化描述,从而实现连词用法的一定程度的自动识别,这将有助于中文文本的机器辨析和自动理解。现代汉语连词用法自动识别是面向自然语言处理的现代汉语虚词知识库研究的重要内容之一。本文根据俞士汶等提出的构建“三位一体”的现代汉语虚词知识库的思想,完善了包括现代汉语连词用法词典、连词用法规则库和连词用法语料库在内的现代汉语连词用法知识库。在连词用法知识库的基础上,分别研究了基于规则和基于统计的现代汉语连词用法自动识别。基于规则的方法简单易懂,但是不能通过机器学习的方法自动地获得知识。基于统计的方法可以从训练数据中自动地或半自动地获取语言知识,但是对于单用法或用法分布稀疏的连词的用法识别效果不好。根据规则方法和统计方法的优缺点,本文结合用法分布率、规则准确率和统计准确率初步尝试了五种规则与统计相结合的方法进行连词用法自动识别。实验结果表明,这些规则与统计相结合的方法的识别效果要高于单一方法的识别效果。在连词用法自动识别的基础上,本文研究了连词用法的一个应用:连词结构短语识别,期望能为机器翻译提供更好的预处理知识,从而提高机器翻译的质量。首先人工标注出已标注过用法的语料中的连词结构短语,并总结出规律,构建连词结构短语识别规则,实现基于规则的连词结构短语自动识别。然后分析规则方法的不足,将连词用法作为统计模型的一个特征实现了基于统计的连词结构短语自动识别。实验结果显示,统计的识别效果要比规则的效果好,并且加入用法特征的统计识别结果比没有加入用法特征的结果高。当统计方法加入用法特征后,识别的F值比没有用法特征的提高1.26%,比规则提高33.3%。