中文学科术语本体学习方法研究 ——以数字图书馆领域为例

来源 :南京大学 | 被引量 : 2次 | 上传用户:yongqiangdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相较于万维网(World Wide Web,WWW),语义网(Semantic Web,SWeb)是一种智能网络,它能对其中的信息资源进行语义描述,不仅能理解词汇和概念,还能理解它们之间的逻辑关系。语义网使得计算机能更好地理解信息资源的含义,也使得人与计算机之间的交流更有效率和价值。而本体机制则是实现语义网的核心技术,作为一种知识描述和组织方式,它具有概念化、形式化、明确性和共享性四大特征。本体层是语义网7层体系结构中的第4层,它将信息资源按照语义方式描述和组织,是进行信息资源交换与共享的基础。对信息资源进行语义描述和组织依赖于相应领域本体的构建。早期的领域本体构建是依靠本体工程师和领域专家手工完成的,但这样的构建方式存在以下缺点:(1)耗费大量的时间和人力;(2)受领域专家主观因素的影响。针对这些问题,学术界提出了本体学习(Ontology Learning),即利用数据挖掘、机器学习、数学统计等方法和技术,通过计算机自动或半自动地从已有数据资源中发现本体元素,包括概念、实例、分类关系、非分类关系和公理。基于非结构化文本进行领域本体学习是当前计算机科学和信息科学领域的研究热点和前沿,而中文非结构化文本由于其自身的特点对本体学习方法和技术又有着不同的要求。通过文献调研发现目前基于中文文本进行本体学习的研究状况是:(1)聚焦在理论设想和方法论证上;(2)对本体学习框架和流程的讨论较多,但目前还没有一个具体的可应用的本体学习系统;(3)中文自然语言处理技术的不成熟对本体学习也有着较大的影响;(4)对本体概念非分类关系获取的研究较少。在上述情况下,本论文基于数字图书馆学科领域的中文非结构化文本,探讨本体学习的方法和技术。首先对本体基本概念和理论进行了阐述;然后构建了领域本体学习系统模型,并利用数据挖掘和数学统计等方法和技术构建了领域本体,该本体包含的元素包括:领域概念、概念的分类关系和非分类关系,最后对构建的领域本体进行描述、存储和可视化展示。本论文的主要工作包括:(1)构建了面向中文文本的基于技术集成的领域本体学习系统模型。在文献调研、系统剖析、应用借鉴的基础上,深入探讨本体学习的功能组成和学习流程。以提供知识服务为总体目标,集成多种数据挖掘技术和数学统计方法,构建了一个面向知识服务的领域本体学习系统模型,提出并论证了模型中关键组件的具体实现方案。(2)实现了基于中文文本的领域术语以及作为术语非分类关系标签的谓语动词的自动识别。具体实现过程中,采用了中文分词、数学统计、权重计算等方法对非结构化领域文献中包含的领域术语以及谓语动词进行抽取。(3)建立了具有实用价值的面向“数字图书馆”领域的术语分类关系的自动抽取模型,实现了领域本体中术语分类关系(层次关系)的抽取。首先基于非结构化领域文档构建术语的向量空间模型,在此基础上,利用BIRCH预聚类和层次聚类挖掘领域术语间的分类层次关系,并利用术语综合相似度指标确定类标签。(4)建立了具有实用价值的面向“数字图书馆”领域的术语非分类关系的自动抽取模型,实现了领域本体术语非分类关系的抽取。首先基于非结构化领域文档构建句子-术语向量空间模型,运用关联规则挖掘方法获取具有非分类关系的术语对,然后基于句子-<术语,动词>向量空间模型再次利用关联规则挖掘术语的非分类关系,并为非分类关系分配了标签。(5)运用网络本体描述语言OWL对构建的“数字图书馆”领域本体进行了描述和存储。OWL把本体中的概念(术语)描述为类(Class),本体中概念(术语)间的关系将通过OWL中的属性进行描述。基于关系数据库对学科领域本体进行存储,关系数据库适用于大型本体数据的存储。(6)运用本体编辑工具Protege5.0beta中的可视化组件OntoGraf对本体进行可视化展示。可视化展示领域本体能使得用户对本体中的概念(术语)和概念(术语)间的关系有更直观形象的了解,并且可以从中发现新的领域知识。本论文的研究意义在于提供了如何从中文非结构化文本中获取领域本体元素的方法和技术,以及如何对领域本体进行描述、存储和可视化的方法和技术。
其他文献
随着多核处理器的普及和编程语言的发展,并发程序在近年来得到了迅速的普及。由于并发程序中的线程访问共享资源的顺序并不确定,导致并发缺陷难触发、难复现、难检测,给并发程序的质量保障带来了重大挑战。本文关注实现并发程序动态分析的基础技术。并发程序的动态分析技术具有代价相对较低、正确性(soundness)容易保证等优点,是目前最有效的并发程序质量保障手段之一,也是工业实践中应用最广泛的一类技术。为实现并
有机场效应晶体管具有适用于大面积加工、柔性基板、工艺成本低等优点,在平板显示、传感器、大规模集成电路、存储卡等领域显现出应用前景。这方面的研究已经取得了巨大的进展,其性能甚至超过无定型硅晶体管。但是还有诸多亟待解决的问题,如迁移率偏低、结构-性能关系不清楚、操作电压大等。本论文在揭示CuPc薄膜结构与电荷传输的关系、以高κ的镧系化合物作为绝缘层构建低操作电压的pentacene场效应晶体管、以铁电
学位
时间是信息空间中很重要的一个维度。大部分的文本中均包含时态信息,这些时态信息在时序文本组织、时间维度的知识挖掘等方面具有很重要的作用。将时态信息融入信息检索技术中是搜索引擎发展的潮流和趋势。这一领域主要研究网页中包含的时态信息,尤其关注利用文本排序结果和文本主题聚类中的时态信息,且已在话题追踪、微博检索实时性较高的检索场景中展开了相关的应用研究。研究基于文本时态特征的信息检索技术对于提高搜索引擎的
当前我国企业面临的环境具有高度的不确定性和无序性,战略决策质量不高、甚至决策失误的情形并不少见。一方面,企业家个人独断专行,决策个体化导致决策失误;另一方面,转型期市场体制不成熟,行政对市场的干预导致市场信息失灵,以致企业家无法依据经济规律进行判断和决策。在这种环境中,企业的战略决策有别于西方公司。企业家们想方设法和政府机构、银行以及经济和管理专家等建立社会联系,一方面试图获取最新的经济信息,规避
在中国司法制度现代化的过程中,南京国民政府时期司法管理制度的构建具有重要的理论与现实意义。南京国民政府司法管理制度是对中国传统司法制度特别是晚清、南京临时政府以及北洋政府时期司法管理制度的继受,这种承继不是偶然的,它是法制现代化发展的必然结果,也是民国法律精英们追求司法独立、关注和推动人权发展的应然选择,他们亲自设计了南京国民政府的司法管理制度的框架并付诸于实践。通过建立一系列司法管理机构,同时健
“什么是真理?”这是一个古老的问题,然而对真理论的系统、严格的逻辑语义学探讨是在上个世纪30年代模型论产生之后。塔斯基于1933年为形式语言提供了形式语义学并试图用模型严格地刻画真谓词。从此,用模型来刻画真谓词成为了研究真谓词的最主要的途径之一。用模型刻画真谓词指的是:为一个带真谓词的语言构造一个模型,在该模型中真谓词有一个一致的解释。除了一致性之外,模型刻画下的真谓词应当尽可能满足人们对真谓词的
生产率的差异被认为是理解国家和地区间收入差距的重要来源。然而,对生产率的认识并不能仅停留在技术进步上。近年来的诸多研究表明,生产率要远比知识和创新复杂的多,社会经济运行体制的变迁、资源更有效率的使用以及要素在不同经济单位间的重新配置都会带来潜在生产率的进一步提升。过去三十多年来,中国经济能够取得高速增长的一个重要原因就是不断消除阻碍要素自由流动的壁垒和障碍,实现了要素在不同部门和地区间更加自由的流
幼儿诗歌是以幼儿为欣赏者的诗歌,是幼儿接触较多又非常喜爱的一种文学形式。它主题单纯,内容浅显、凝炼,节奏明快,韵律和谐,富有儿童情趣,读起来朗朗上口,易于朗诵、记忆和表达情感。诗歌教学不仅可以丰富幼儿的知识、发展语言、启迪智慧,还可以使幼儿的心灵和情感受到良好的熏陶,
期刊
背景:临床原发性自发性气胸(PSP)人群中隐含了一部分由于FLCN基因突变导致的BHD综合征病人,这部分病人及其家庭成员虽然面临着皮肤损伤,尤其是肾癌的高风险,在临床上却仅仅表现为自发性气胸和肺大泡,没有皮肤和肾脏问题的临床表型,即F-PSP病人。由于缺乏对F-PSP的遗传本质与临床特征的基本了解和研究,造成了目前在临床上,F-PSP病人仍被当作普通PSP进行诊断与治疗,而对病人及其家庭成员面临的
无机氧化物纳米材料相对其块体材料而言,具有较大的比表面积和丰富的缺陷结构,其性质具备非常大的可调控性,因而在催化、气敏、激光发射、能量储存等领域有非常大的应用潜力。氧化物纳米晶的特定暴露晶面和氧空位等晶格缺陷,深切地影响其性能和应用范围,因此从原子尺度了解其纳米结构,对建立材料的构效关系,并合理指导材料设计具有重要意义。在本论文中,我们采用17O固体核磁共振谱学,结合同位素标记,表征具有特定暴露晶