论文部分内容阅读
自上世纪90.代以来,本体已成为人工智能多个研究方向的研究热点.近年来,本体作为表达领域知识的共享概念模型,也逐渐成为包括知识工程、知识管理、智能信息集成、信息检索和语义网等多个领域的关键方法和工具。尽管本体工程工具在过去十年已逐渐成熟,但手工获取本体是一个困难、缓慢,耗时、乏味和高成本的工作,成为知识获取的瓶颈问题。因此,开发半自动的本体构建方法和技术来减轻知识获取过程中的费力问题显得尤为重要,这就是本体学习(ontology learning)的目标与任务。在此背景下,本文主要针对本体学习系统开发,特别是基于中文学术文献的本体学习,开展了以下研究工作:
(1)提出了本体学习信息流知识流双层交互的系统框架模型。基于本体学习在中文学术文献信息系统的应用环境分析,本文提出了一个信息流知识流双层交互的、基于多本体的、支持动态与嵌入复用的本体学习系统框架。该模型全面反映了本体学习与外界环境的交互作用,将本体学习置于本体构建工具和信息应用系统之间,一方面从信息中抽取知识,另一方面对信息进行语义知识标注,形成了信息流与知识流的不断交互过程。该模型具有层次化、多用户、交互性,循环性、递进性、动态性等特性。
(2)设计了一个中文本体学习工具系统CH0L。基于上述研究,本文设计并部分实现了CH0L系统,一个面向中文学术文献处理的试验性的本体学习工具系统。该系统基于中文学术文献进行领域本体的学习,一方面支持领域本体的自动构建和动态维护更新,另一方面支持中文学术文献的自动标引,自动分类和知识门户等应用系统构建,以及《中国分类主题词表》的半自动更新。与其他多数的本体学习系统相比,该系统特点有:支持独立和嵌入应用两种方式、基于动态增量的本体学习、基于中文学术文献的本体学习,基于多层次本体的学习,可定制的本体学习。
(3)提出了一个面向信息内容知识标注的动态的层次化的广义领域本体结构模型,定义并构建了一个中文领域本体。该结构模型共分5层:自然语言本体、全局领域本体、基础领域本体、特定领域本体和领域本体实例。此本体结构便于知识的继承与复用,体现了知识的完整性、简洁性和可扩展性。基于此领域本体模型,本文在CH0L系统中构建了一个中文领域本体,该本体引用了“知网”(Hownet)和《中国分类主题词表》分别作为构建自然语言本体和全局领域本体的基础。
(4)提出了一个快速逐步求精的多策略中文领域概念抽取的方法。本文分析了领域概念之概念及其抽取任务,将中文领域概念抽取分为三个步骤:候选术语抽取、术语识别和领域概念生成;调研了中文分词和未登录词识别相关技术,选取了其中两种抽取方法进行了实验比较研究,提出了一个快速的中文文本新词抽取策略,获得了较高精度的候选术语;讨论了多项领域术语相关性计量指标,提出了一个新的综合多项指标的领域术语相关性计量方法,实验证明,该方法可获取较高质量的中文领域术语。
(5)构建了一个基于神经网络方法的本体概念关系学习算法。概念关系抽取主要有两种基本方法:基于语言模式匹配和基于泛化的机器学习方法。在当前开发的本体学习系统中,较少有采用神经网络的学习方法。有观点认为,神经网络的学习方法可在本体学习算法中不加考虑。因此,本文探讨了神经网络用于本体概念关系学习的可行性和有效性,并在CH0L系统中构建了一个基于神经网络方法的本体概念关系学习算法。
本论文共包括图49幅、表36幅、附录3个。