论文部分内容阅读
句法分析是自然语言处理中的一个中心课题。根据目标的不同,目前主要有两类研究方向:第一类着眼于句法分析的完整性,主要依赖于大规模形式化的语言知识;另一类着眼于提取与应用相关的浅层句法信息,依赖的方法主要是概率统计及相对简单的语言模型。这两者通常分别称为理性主义与经验主义。
在中文信息处理领域,目前第一类句法分析系统在性能和效率方面离实用尚有一定距离,在相当一段时间内在实用效率方面落后于经验主义方法。然而,当前及不远的将来对计算机智能化的需要,又迫切需要能提供完整句法结构的高效汉语句法分析平台。这样,拉近句法分析系统与实用之间的距离,已成为亟待解决的问题,而一旦此类方法有所突破,必将深刻地影响经验主义方法,为新的该种方法提供语言知识。本文的研究目标也在于此。
本文设计并实现了一个能有效使用大量语言知识的开放性汉语句法分析系统模型,同时考虑了系统的效率和健壮性等实用方面的问题。语法体系、分析算法和歧义消解是句法分析中的三个主要问题,也是本文的研究重点。与此同时,本文完成了测试评价工作,确保了上述诸项工作的正确性、有效性。
构建语法体系的难点在于如何将大规模的语言知识形式化。汉语具有不同于西方印欧语系的特点,在这方面没有比较成熟的理论可供参考。本文基于合一文法的思想,采用结合复杂特征集的上下文无关文法的形式设计语法体系,并在此基础上结合大量现代汉语语言知识构建了包含三百多个语法语义特征和百余条句法规则的句法知识库,在大规模语法知识的形式化方面做了有益的尝试。同时本文使用预编译技术使得句法知识库具有良好的开放性。
句法分析算法方面,本文在传统双向图算法的基础上做了三点有益于实用的改进:第一、引入了分层渐进的分析模式,有效地提高了分析效率;第二、提供了对多输入的处理,使系统能够与切分标注前处理紧密结合;第三、加入了容错处理功能,使系统具有良好的健壮性。
歧义消解方面,本文以句法规则中特征之间的制约关系为基础,同时使用结合上下文相关信息的概率文法作为辅助手段,对句法分析结果进行优选。这种规则结合概率的混合方法,比单一方法具有更好的效果。
最后本文基于随机选取的测试集,采用多种标准对系统进行测试,从多个角度展示了系统在分析能力、歧义消解能力和效率等方面的性能,力求对所做的各项工作有一个科学、客观、公正的测试和评价,并以此为依据提出进一步的工作方向。
本文所述的理论模型、实现系统及其评测工作,形成了一个崭新的汉语句法体系平台。