基于语义文法的术语关系获取方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lubiaofs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识表示和知识抽取是人工智能领域的重要内容。术语关系获取是知识抽取的一个重要研究方向。术语是指代实体的词语,术语间的关系表达实体间的关系。术语关系获取是指从结构化或半结构化的文本中抽取术语间的关系,按一定的形式存储在计算机中的过程。术语关系虽然在定义上大致相同,但在具体的使用中却千差万别。又因为它隐藏在大量的互联网信息中,如果只靠人工获取,将耗费大量的人力、物力。而且即使获取到大量的术语关系,这些关系也常常存在许多正确性判定问题。验证这些关系的正确性也是一个棘手的问题。目前这方面的研究相对较少。本文针对以上这些问题,重点研究名词术语间的关系,从术语关系的形式化定义、获取方法和验证出发,取得以下四个方面的成果:(1)术语关系的刻画本文总结术语间的各种关系,给出术语间关系的定义、谓词表示以及分类。并从术语关系的描述对象、语料背景、术语关系间的关系三大方面给出了术语间关系的详细刻画。同时,在产生式基础上引入中枢谓词,构建术语关系描述文法。使术语关系文法能够对术语关系的各种自然语言表达形式进行描述,为术语关系的获取打下基础。(2)术语关系的获取本文通过分析术语关系语料,总结关系对应的文法集合。在OMKast基础上,导入半结构化语料,获取术语关系集。并且根据获取结果,分析总结关系获取问题,给出解决策略。反过来利用解决策略指导文法构建过程,以提高文法解析的正确率。(3)术语关系公理的获取和验证根据关系的定义,从关系的内在性质和外在联系出发,获取术语关系间的所有公理,构建公理系统。利用LL(1)型文法对其进行语法正确性验证。利用谓词逻辑推导公式,对其进行一致性(或矛盾性)验证。然后参考素瓦的概念图对其进行公理遗缺性检验,参考语义网络图对其进行关系遗缺性检验。并分别给出相应检验方法的算法。(4)术语关系的验证获得的术语关系中存在大量的干扰词,因此在进行关系的验证之前,先对获取的术语关系进行预处理:建立剥离词库、剥离句模,剥离掉关系中的干扰词。然后分析并总结术语关系的语义特征、语法特征及统计特征,验证关系的相对正确性。最后,结合术语关系相关的公理,讨论公理验证的顺序问题、公理验证的查找效率问题,验证术语关系的相对正确性。并分别给出相应验证方法的算法。
其他文献
随着计算机技术和网络通信技术的飞速发展,基于Internet的各种信息化平台在社会的各个领域都得到了越来越广泛的应用。特别是近年来,基于B/S模式的自测系统已经成为教育领域
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识,目前已成为信息技术领域研究的热点问题之一。数据
现代企业在生产经营过程中要面对庞杂的物流信息,处理和管理好这些信息,对企业降低运营成本,增强商品存储效率,加强客户服务起着重要的作用。物流管理信息系统是整个企业物流
分类学习是机器学习重要的研究内容。支持向量机(Support Vector Machine SVM)在众多分类算法中,具有很好的分类性能。SVM通过选择不同的核函数和参数可以使其具有不同的分类
数字水印技术是一种新型的信息隐藏技术,它的主要思想是在数字视频、音频和图像媒体中加入保护数字产品的版权证明。它弥补了密码技术和数字签名技术的缺陷,因此,数字水印技术作
随着Internet的迅猛发展,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大的动态信息服务网站,为用户提供了一个极具价值的信息源。而传统的信息检索技术由于对这些信
随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,在Web上出现了丰富的数据资源。为了更有效的利用这些数据,需要在一个统一的平台上对这些数据进行集成和
自然现象的建模和渲染是近十几年来计算机虚拟现实与系统仿真的一个重要研究领域,而基于物理模型的流体模拟近年来成为这个领域的一个研究热点。由于在现实世界中运动规律的复
数据挖掘技术被广泛地应用于社会各个领域,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。在获取数据的过程中,无法避免空缺值的产生。空缺值的存在对数据质量影
现代远程教育是构筑知识经济时代人们终身学习的一种新型教育模式。基于Web的远程教学平台能够充分发挥信息技术在教学中的优势,能够体现以学生为主体,教师为主导的教学理念,