论文部分内容阅读
知识表示和知识抽取是人工智能领域的重要内容。术语关系获取是知识抽取的一个重要研究方向。术语是指代实体的词语,术语间的关系表达实体间的关系。术语关系获取是指从结构化或半结构化的文本中抽取术语间的关系,按一定的形式存储在计算机中的过程。术语关系虽然在定义上大致相同,但在具体的使用中却千差万别。又因为它隐藏在大量的互联网信息中,如果只靠人工获取,将耗费大量的人力、物力。而且即使获取到大量的术语关系,这些关系也常常存在许多正确性判定问题。验证这些关系的正确性也是一个棘手的问题。目前这方面的研究相对较少。本文针对以上这些问题,重点研究名词术语间的关系,从术语关系的形式化定义、获取方法和验证出发,取得以下四个方面的成果:(1)术语关系的刻画本文总结术语间的各种关系,给出术语间关系的定义、谓词表示以及分类。并从术语关系的描述对象、语料背景、术语关系间的关系三大方面给出了术语间关系的详细刻画。同时,在产生式基础上引入中枢谓词,构建术语关系描述文法。使术语关系文法能够对术语关系的各种自然语言表达形式进行描述,为术语关系的获取打下基础。(2)术语关系的获取本文通过分析术语关系语料,总结关系对应的文法集合。在OMKast基础上,导入半结构化语料,获取术语关系集。并且根据获取结果,分析总结关系获取问题,给出解决策略。反过来利用解决策略指导文法构建过程,以提高文法解析的正确率。(3)术语关系公理的获取和验证根据关系的定义,从关系的内在性质和外在联系出发,获取术语关系间的所有公理,构建公理系统。利用LL(1)型文法对其进行语法正确性验证。利用谓词逻辑推导公式,对其进行一致性(或矛盾性)验证。然后参考素瓦的概念图对其进行公理遗缺性检验,参考语义网络图对其进行关系遗缺性检验。并分别给出相应检验方法的算法。(4)术语关系的验证获得的术语关系中存在大量的干扰词,因此在进行关系的验证之前,先对获取的术语关系进行预处理:建立剥离词库、剥离句模,剥离掉关系中的干扰词。然后分析并总结术语关系的语义特征、语法特征及统计特征,验证关系的相对正确性。最后,结合术语关系相关的公理,讨论公理验证的顺序问题、公理验证的查找效率问题,验证术语关系的相对正确性。并分别给出相应验证方法的算法。