论文部分内容阅读
每一种语言都有自身的特点,一种语言区别另一种语言,句型上的差异起着重要作用。汉语句型复杂多样,是汉语句法理论中一个重要的研究单位。但是,在中文信息处理中,以句型为目标的研究并不多。本文以汉语句型的自动识别为研究对象,强调结合自然语言处理要求和汉语语法规律,构建统一的句型系统框架,并在该框架下,尝试进行句型分析、研究句型识别策略。在汉语句型的语言理论研究中,本文结合句模理论,提出“阶”的概念,构建了将谓词的句法特性与语义特征结合的谓词知识库,为计算机识别句型提供帮助。在汉语句型识别的策略研究中,本文给出了汉语句型自动识别系统的流程框架。该框架中包含预处理模块和句型识别模块两个部分。预处理模块以去除句子的非句型成分为目的,抽象出句子的句干,填充包括定中结构、状中结构和补中结构的句法关系槽。句型识别模块以判定句干的句型类别为主要目的,并填充包含主谓关系、谓宾关系的句法关系槽。在预处理模块中,本文提出“语片”的概念,将预处理过程分为粘合语片、填充句法关系槽两个流程,并提出基于滑动窗口机制的粘合算法,以及基于上下文无关文法的填充器C-Filler。在句型识别模块中,本文提出了“基于规则匹配”和“基于函数模型”的两种可选策略。“基于规则匹配”的策略中,利用扩充的上下文无关文法,设计了句型识别器Recognizer;“基于函数模型”的策略中,本文首次提出,利用转化函数,将句子转化到坐标空间中,使用函数模型研究句子的句法特征,并通过函数计算获得句子的特征向量用于机器学习,最终利用机器学习得到的决策函数识别句型。“基于函数模型”的策略是一种“引用数学方法研究句子”的新思路。作为策略评估,在句型系统的子集上构建了实验模型,对预处理策略和两种句型识别策略分别进行了评估,实验结果证明了三种策略的可行性。最后,论文从应用角度,在机器翻译、语法错误自动检查、统计汉语句型分布等几个方面,对汉语句型自动识别的应用前景作了简介。