面向中文学术文献处理的本体学习研究

来源 :中国科学院文献情报中心 | 被引量 : 0次 | 上传用户:lty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪90.代以来,本体已成为人工智能多个研究方向的研究热点.近年来,本体作为表达领域知识的共享概念模型,也逐渐成为包括知识工程、知识管理、智能信息集成、信息检索和语义网等多个领域的关键方法和工具。尽管本体工程工具在过去十年已逐渐成熟,但手工获取本体是一个困难、缓慢,耗时、乏味和高成本的工作,成为知识获取的瓶颈问题。因此,开发半自动的本体构建方法和技术来减轻知识获取过程中的费力问题显得尤为重要,这就是本体学习(ontology learning)的目标与任务。在此背景下,本文主要针对本体学习系统开发,特别是基于中文学术文献的本体学习,开展了以下研究工作:   (1)提出了本体学习信息流知识流双层交互的系统框架模型。基于本体学习在中文学术文献信息系统的应用环境分析,本文提出了一个信息流知识流双层交互的、基于多本体的、支持动态与嵌入复用的本体学习系统框架。该模型全面反映了本体学习与外界环境的交互作用,将本体学习置于本体构建工具和信息应用系统之间,一方面从信息中抽取知识,另一方面对信息进行语义知识标注,形成了信息流与知识流的不断交互过程。该模型具有层次化、多用户、交互性,循环性、递进性、动态性等特性。   (2)设计了一个中文本体学习工具系统CH0L。基于上述研究,本文设计并部分实现了CH0L系统,一个面向中文学术文献处理的试验性的本体学习工具系统。该系统基于中文学术文献进行领域本体的学习,一方面支持领域本体的自动构建和动态维护更新,另一方面支持中文学术文献的自动标引,自动分类和知识门户等应用系统构建,以及《中国分类主题词表》的半自动更新。与其他多数的本体学习系统相比,该系统特点有:支持独立和嵌入应用两种方式、基于动态增量的本体学习、基于中文学术文献的本体学习,基于多层次本体的学习,可定制的本体学习。   (3)提出了一个面向信息内容知识标注的动态的层次化的广义领域本体结构模型,定义并构建了一个中文领域本体。该结构模型共分5层:自然语言本体、全局领域本体、基础领域本体、特定领域本体和领域本体实例。此本体结构便于知识的继承与复用,体现了知识的完整性、简洁性和可扩展性。基于此领域本体模型,本文在CH0L系统中构建了一个中文领域本体,该本体引用了“知网”(Hownet)和《中国分类主题词表》分别作为构建自然语言本体和全局领域本体的基础。   (4)提出了一个快速逐步求精的多策略中文领域概念抽取的方法。本文分析了领域概念之概念及其抽取任务,将中文领域概念抽取分为三个步骤:候选术语抽取、术语识别和领域概念生成;调研了中文分词和未登录词识别相关技术,选取了其中两种抽取方法进行了实验比较研究,提出了一个快速的中文文本新词抽取策略,获得了较高精度的候选术语;讨论了多项领域术语相关性计量指标,提出了一个新的综合多项指标的领域术语相关性计量方法,实验证明,该方法可获取较高质量的中文领域术语。   (5)构建了一个基于神经网络方法的本体概念关系学习算法。概念关系抽取主要有两种基本方法:基于语言模式匹配和基于泛化的机器学习方法。在当前开发的本体学习系统中,较少有采用神经网络的学习方法。有观点认为,神经网络的学习方法可在本体学习算法中不加考虑。因此,本文探讨了神经网络用于本体概念关系学习的可行性和有效性,并在CH0L系统中构建了一个基于神经网络方法的本体概念关系学习算法。   本论文共包括图49幅、表36幅、附录3个。
其他文献
给出利用移动WAP技术构建数字图书馆的一般思想,提出一种采用WAP网站技术来为读者提供随时随地服务的技术方案,设计并实现一个功能较完善的移动图书馆系统原型。这种基于WAP
通过引入位置因素修改TF-IDF因子进行初次特征选择,提出一种基于位置的文本特征加权改进模型;再借助类别信息构造类别向量提高文本类别表示能力,进一步提出一种位置加权模式
随着教育的全面发展,在新时期高中学生的身体素质受到高度重视,在实践中校园体育教学得到全面发展,其中足球因其知名度而受到学生的追捧,高中足球社团的开设,点燃了学生参与
社科研究成果评价作为一项复杂的科学评价活动,是社科科研管理的重要环节,是提高科研管理水平的重要手段和保障,也是社会科学科研管理的一个重点和难点。由于中国长期缺乏科学合
本研究旨在分析青少年领悟社会支持与其体育学习行为之间的关系,通过相关分析和回归分析发现青少年领悟社会支持对其体育学习行为具有预测作用,由此为促进青少年体育学习,增
针对数字图书馆建设中存在的各应用系统之间分散认证的问题,提出基于统一身份认证技术的单点登录(SSO)解决方案。文章首先论述统一身份认证和单点登录的概念、功能及相互之间
政府科技信息资源是政府信息资源中的重要内容,也是国家生存与发展所必需的重要战略资源。信息时代,国际间以科学技术为代表的综合实力的竞争日益激烈,政府科技信息资源的公共性
通过分析当前用户协作信息检索的相关理论和系统实践,总结其中存在的一些问题,确定用户同步协作检索中要解决的三个关键问题:检索任务的分配、群组查询历史的重用和协作感知,
在公开课和优质课的展示与比赛中,老师们在一些练习中,利用音乐做为辅助教学手段应用到教学中,出现了一些问题:如在音乐选择上,在音乐使用上,出现了“为了用而用”的盲目性、
特色数据库建设是当代信息资源建设的重要内容之一,也是本文论述的中心。围绕这一中心,将探讨特色数据库建设的一系列问题以及与特色数据库相关的特色信息服务问题。 本文将