论文部分内容阅读
互联网时代对中文信息处理提出了新要求,在目前语料充分,甚至数据海量的情况下,虽基于经验的统计方法得到了广泛的应用,但它在深层分析方面并没显出特别的优势。从无限的领域里寻找有限,以有限控制无限,是基于规则的方法。词和词义也是无限的,但每个人所掌握的词和词义却是有限的;语言环境是无限的,但人类交流时利用和感知到的语言环境要素是具体的。研究中文信息处理,首先要求研究者自身对中文有深入的了解。语言是人对事物认知的表达,相比其他语言,中文注重语义。本文从认知语言学、计算语言学和程序的角度,在语义的高度,主要用基于规则的方法:(1)用兼顾句法和语义的配价理论对中文句子进行分类。语言研究的具体成果要能为计算机用,必须兼顾两点要求:一要能够形式化,二对处理对象有普遍的可操作性。配价理论作为认知语法理论的一个重要部分,能同时兼顾句法和语义,接近语言实质,能够形式化,可操作性强。通过对配价性质的确立配价的原则和方法的探讨,确定常用动词的价数,并据此对中文句子进行分类。(2)将美国乔姆斯基形式主义的上下文无关语法和中国朱德熙先生基于词组的词组本位语法对照,进行语法对比,为语种间共性研究提供了资料,更趋近语言的本质。这为后面对中文的语法进行符号抽象,产生式规则库的建立提供可靠的理论支持,为句法分析的完成提供了保障。(3)建立配价字典。根据配价理论建立配价字典。配价字典用于对句子进行语义分析。(4)着重中文三类句子:正常语序句子,宾语前置句子和带介词的如“把”字句“被”字句。从对语言本身的研究出发,从一个新的角度开始,本文不局限于词法分析或句法分析,较好地兼顾两者并进行语义分析,对传统的从词法到句法再到语义的分析有突破。有较好的包容性和可拓展性。