现代汉语多义形容词义项划分及词义消歧研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:bluelink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义自动标注和消歧是当前自然语言处理的一个热点问题,也是难点问题。本文是973项目“数字内容理解的理论与方法”研究课题的一部分。旨在探索信息处理用现代汉语多义形容词自动标注和消歧的方法和策略。并从理论上探讨多义词“词义”的概念以及义项区分的认知语义框架。   研究的基础是北京大学计算语言研究所《人民日报》200万字的基本标注语料。该语料基于信息处理用《现代汉语语法信息词典》已作了词语自动切分、词性标注,基于中文概念词典CCD作了同形标注。研究的辅助工具是义项标注和校对辅助软件。此外,还有10亿语料库补充材料。   词义的分割是词义标注和消歧的基础。本文指出,义项划分其实质就是意义单位的提取和归并。可以从纵向聚合关系和横向组合关系来探讨。从纵向看,词义单化内部关系或各自特征是义项划分的重要参考;从横向看,多义词的语义、语法甚至语用的分布环境是其义项划分的主要参考。出于研究目的,本文主要从横向探讨。   本文从理论上探讨了多义词义项划分的原则和方法,并进一步探讨了义项划分与语义选择和语法搭配的关系,提出两个主要观点:   1、“词义”既与客观事物的联系有关又与语言的使用有关,语义搭配决定的“语义义项”与句法搭配决定的“语法义项”划分,两者不在同一层面上。我们认为,信息处理用词典的释义对此应该有更系统的处理方式。以形容词为例,两者不在同一层而的表现是:①从意义之间的联系看,形容词的‘语义义项’与所搭配的名物的不同认知域的投射关联,在保持表事物属性的前提下,通过从物质域到观念域、心理域的投射,或更细层级不同域之间投射,形成不同的义项;‘语法义项’则是从表名物的静态属性投射到标志表现象、动作的动态属性,或静态属性转指抽象物。②从形式表现看,形容词的数个‘语义义项’都是形容词属性的,区别在所搭配的名词的‘语义类’,与特定的句法结构无关;而不同的‘语法义项’则有可能分析为形容词、动词(自发变化/使变化)、抽象名词等不同词类,分别出现在不同的结构中。③一个词的各个语义义项,可能都有相应的若干个语法义项,也可能只有一部分语义义项有相应的语法义项、另一些语义义项没有相应的语法义项。目前词典对‘语法义项’的处理很不一致:同一词典的词条,有的收语法义项,有的不收。收语法义项的词条又都是简单地把语法义项作为一个义项列在诸个语义义项之后。我们认为,作为信息储存能力超群的计算机词典,应该仔细分辨同一词条的各个语义义项是否都有相应的语法义项,如果有,应该分别作为不同的义项单列。而作为语文词典,较大型的可以把语法义项作为一个义项单列,并在单列的同时注明所适用的语义义项的目次;较小型的也可以不注语法义项,把形容词的语法小类区分留给语法描写处理。   2、义项划分是一个颗粒精确度层级体系。概括性越高,颗粒度越大,越模糊,概括性越低,颗粒度越细,越精确。一般概括是具体/抽象层以及基本认知直接上层。细致概括是中间层和基本认知下层。我们这里概括的依据是既有语感共识的意义差别,又有可操作依据。   并且,本文通过“深”、“高”两个实例对义项划分的认知基础作了尝试性研究。   本文深入研究了可作为形容词词义消歧的语义语法信息以及相关方法与策略,通过对近100个多义形容词的义项划分和词义标注的实际操作,我们认识到,词义消歧知识最好是在词库中对不同形容词以及不同义项作语义和语法信息的逐一描述。用一种统一的方法恐怕很难兼顾。   本文词义消歧的整体思路是:首先,在义项划分的阶段描绘语义选择限制,词义消歧时“语义同指”依此判定,“语义异指”(如形容词做状语)则先判定形容词与哪个词有语义联系,再依语义选择限制判定。其次,结合句法信息,如句法位置、词类序列等判定。再次,结合并列条件、特征词、特定结构等判定。有些情况还需结合各种消歧知识综合判定。   当然,词义标注与消歧的研究,是自然语言处理领域中攻坚性的研究课题,本文的研究还只是初步探索,更多的理论和实践,还有待继续深入。  
其他文献
在云南省南涧彝族自治县境内无量山麓一带的有些彝族山村:如浪沧乡的凤凰村、少乐乡的宫地村、自强村等地,彝家人却以青石板作屋顶,建成一幢幢别具一格的“石板房”,这在民居
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
荷兰皇家帝斯曼集团2006年9月14日宣布,向帝斯曼在江苏省江阴市现有生产基地追加数千万美元投资,用于兴建新的聚合厂,生产高粘度等级的Akulon(R)单6聚酰胺(PA6).新工厂预计将
段玉裁是清朝乾嘉时代的著名学者,他一生研究古音、文字、经学,多所发明,著述丰富。他的古音学研究上承顾炎武、江永,下启孔广森、江有诰,取得了辉煌的成就。他研究古音学的
一、巧设障碍在一些实验上,我们可以根据具体情况,人为地给学生的探究实验创造障碍,以期进一步激发学生的探究能力,激发学生的创造性思维。比如,在比热容一课的教学中,我为学
目前,连铸机使用者继续关注于连铸机生产率的提高和灵活性的改善,关注于产品质量的提高和生产成本的降低。为了满足这些要求,VAI钢铁工厂设计与建设公司开发了一系列的成套技术
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
针对单微悬臂梁生化检测系统中存在的温度漂移、溶液折射率变化等环境噪声影响和不能多目标检测等问题,设计制作了一种基于垂直腔面射型激光器阵列(VCSELs)的新型微悬臂梁阵
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
连铸GCr15轴承钢材的一般疏松、中心疏松和偏析与模铸材相同。两种材料的碳化物带状、网状和液析也相同;两炉连铸材的氧化物夹杂的沾污面积分别比模铸材少12.6%和38.7%;最大氧化