论文部分内容阅读
词义自动标注和消歧是当前自然语言处理的一个热点问题,也是难点问题。本文是973项目“数字内容理解的理论与方法”研究课题的一部分。旨在探索信息处理用现代汉语多义形容词自动标注和消歧的方法和策略。并从理论上探讨多义词“词义”的概念以及义项区分的认知语义框架。
研究的基础是北京大学计算语言研究所《人民日报》200万字的基本标注语料。该语料基于信息处理用《现代汉语语法信息词典》已作了词语自动切分、词性标注,基于中文概念词典CCD作了同形标注。研究的辅助工具是义项标注和校对辅助软件。此外,还有10亿语料库补充材料。
词义的分割是词义标注和消歧的基础。本文指出,义项划分其实质就是意义单位的提取和归并。可以从纵向聚合关系和横向组合关系来探讨。从纵向看,词义单化内部关系或各自特征是义项划分的重要参考;从横向看,多义词的语义、语法甚至语用的分布环境是其义项划分的主要参考。出于研究目的,本文主要从横向探讨。
本文从理论上探讨了多义词义项划分的原则和方法,并进一步探讨了义项划分与语义选择和语法搭配的关系,提出两个主要观点:
1、“词义”既与客观事物的联系有关又与语言的使用有关,语义搭配决定的“语义义项”与句法搭配决定的“语法义项”划分,两者不在同一层面上。我们认为,信息处理用词典的释义对此应该有更系统的处理方式。以形容词为例,两者不在同一层而的表现是:①从意义之间的联系看,形容词的‘语义义项’与所搭配的名物的不同认知域的投射关联,在保持表事物属性的前提下,通过从物质域到观念域、心理域的投射,或更细层级不同域之间投射,形成不同的义项;‘语法义项’则是从表名物的静态属性投射到标志表现象、动作的动态属性,或静态属性转指抽象物。②从形式表现看,形容词的数个‘语义义项’都是形容词属性的,区别在所搭配的名词的‘语义类’,与特定的句法结构无关;而不同的‘语法义项’则有可能分析为形容词、动词(自发变化/使变化)、抽象名词等不同词类,分别出现在不同的结构中。③一个词的各个语义义项,可能都有相应的若干个语法义项,也可能只有一部分语义义项有相应的语法义项、另一些语义义项没有相应的语法义项。目前词典对‘语法义项’的处理很不一致:同一词典的词条,有的收语法义项,有的不收。收语法义项的词条又都是简单地把语法义项作为一个义项列在诸个语义义项之后。我们认为,作为信息储存能力超群的计算机词典,应该仔细分辨同一词条的各个语义义项是否都有相应的语法义项,如果有,应该分别作为不同的义项单列。而作为语文词典,较大型的可以把语法义项作为一个义项单列,并在单列的同时注明所适用的语义义项的目次;较小型的也可以不注语法义项,把形容词的语法小类区分留给语法描写处理。
2、义项划分是一个颗粒精确度层级体系。概括性越高,颗粒度越大,越模糊,概括性越低,颗粒度越细,越精确。一般概括是具体/抽象层以及基本认知直接上层。细致概括是中间层和基本认知下层。我们这里概括的依据是既有语感共识的意义差别,又有可操作依据。
并且,本文通过“深”、“高”两个实例对义项划分的认知基础作了尝试性研究。
本文深入研究了可作为形容词词义消歧的语义语法信息以及相关方法与策略,通过对近100个多义形容词的义项划分和词义标注的实际操作,我们认识到,词义消歧知识最好是在词库中对不同形容词以及不同义项作语义和语法信息的逐一描述。用一种统一的方法恐怕很难兼顾。
本文词义消歧的整体思路是:首先,在义项划分的阶段描绘语义选择限制,词义消歧时“语义同指”依此判定,“语义异指”(如形容词做状语)则先判定形容词与哪个词有语义联系,再依语义选择限制判定。其次,结合句法信息,如句法位置、词类序列等判定。再次,结合并列条件、特征词、特定结构等判定。有些情况还需结合各种消歧知识综合判定。
当然,词义标注与消歧的研究,是自然语言处理领域中攻坚性的研究课题,本文的研究还只是初步探索,更多的理论和实践,还有待继续深入。