论文部分内容阅读
如何用智能化的手段把网页上浩如烟海的文本转化为知识,是目前知识获取领域十分紧迫的问题。而概念以及概念间的关系是知识的基本组成部分,因此如何获取并验证概念成为从文本到知识的过程中不可逾越的重要步骤。概念获取和验证的本质就是获取代表概念的词语并验证这个词语指代概念的可能性。由于汉语本身的特点,中文概念获取和验证不适合直接采用其他语言的处理方法。而且我们需要获取的概念不局限于一个具体的领域,这使得中文概念获取存在诸多困难。为此本文从多种角度开展了的以下研究:(1)基于构词规则的抽取和验证方法。一般地,构词规则是语言学家对大量语言材料研究之后人工建立的,但由于概念的覆盖范围很广,人工获取构词规则非常困难,规则的适用性也受到严峻的考验。本文提出了一种基于词法分析和统计的构词规则自动获取方法。实验表明,该方法行之有效。(2)基于构词贡献的验证方法。提出并实现了一种利用概念词之间的贡献关系迭代地验证概念词的方法,其基本思想是概念词内部存在着一些概念词构件,在大语料中它表现了一种比较好的统计特征,我们首先利用统计方法获取这些概念词构件,然后利用已有词典和概念词构件来进行概念验证。另外,概念词中存在大量以原有词为蓝本产生的新词语,这些新词语与已有概念词结构相似。我们利用机器学习方法分析这些概念词之间存在的类推关系,生成新词语产生的类推模式,做为验证概念词的有益补充。(3)概念词的开放验证方法。提出了一种利用概念词的上下文特征和公共上下文模式进行概念词验证的方法。由于人工获取上下文模式代价比较高,本文实现了一种基于模式学习的上下文模式学习方法,并对模式进行评价,把综合性能比较好的模式用于概念词的抽取和验证中,减少了人工构建模式的代价。同时由于概念词开放验证算法的复杂度较高,本文还提出了一种利用概念的验证依赖关系降低验证规模的算法。(4)概念抽取和验证的统一框架。本文提出并实现了一个概念抽取和验证的统一框架,该框架融合了规则、统计、语义和上下文信息等多种方法。系统首先使用概念获取模式得到候选概念串;然后利用构词贡献进行验证,若不能验证,再利用分割符把候选概念串分隔成句块;然后在概念抽取模块,利用正则表达式规则从句块中抽取概念,并进行初步评价;最后利用统计验证方法召回抽取模块未能抽取的新词语,并重新评价有歧义的概念词。