论文部分内容阅读
语义选择限制是重要的词汇语义知识,可用于自然语言处理领域的多个任务,比如隐喻计算、句法分析、语义角色标注、词义消歧、指代消解、机器翻译等。目前通过手工构建的语义选择限制知识库已经很难满足自然语言处理的需求,需要基于大规模语料自动地获取语义选择限制知识。本文针对汉语语义类层面的语义选择限制——汉语优选语义类,提出了一种基于最小描述长度原则和语义分类体系的自动获取模型,并构建了语义选择限制知识库。主要研究内容包括:(1)对现有知识库中语义选择限制的统计与分析。首先将HowNet蕴含的选择限制知识系统地提取出来,并对VerbNet和SKCC中的选择限制知识进行归纳与统计。对三者进行分析和比较发现,VerbNet和HowNet的选择限制基本一致,互为补充会更加完善,SKCC对动词的主体和客体的选择限制更加严格。(2)从语料库中获取语义选择限制知识。提出了基于最小描述长度原则和语义分类体系的汉语语义选择限制自动获取模型。对HowNet现有的名词语义分类体系进行改造,而后基于大规模语料获取选择限制知识。伪消歧实验显示,本文所提出的方法优于基于KL距离的方法。将SKCC中的选择限制知识用作标准测试集,用来衡量基于调整后的SKCC名词语义分类体系获取到的选择限制知识,在宽松衡量标准下取得了75.26%的正确率。(3)构建语义选择限制知识库。通过现代汉语词典(第五版)为多义词的每个义项匹配种子词,然后计算目标词的词向量和种子词的词向量之间的余弦相似度,将目标词划分到不同的义项中,达到词义消歧的目的,最终构建了动词-客体的语义选择限制知识库。本文面向语义知识库建设,统计和分析了现有知识库中语义选择限制知识,并提出了一种基于语义分类体系及最小描述长度原则的汉语语义选择限制获取方法,对比实验表明本文方法的有效性。