论文部分内容阅读
2001年Tim-Berners首次提出了语义网的概念。但是随着研究的深入,越来越多的研究者注意到了当今网络与语义网之间的差距,一方面是当前的万维网上存在的大量HTML文档是为人类阅读准备的,而不是为了机器处理。网页知识由自然语言结合HTML标记表示,计算机无法利用这些知识的语义信息,无法满足用户的高级需求。另一方面,语义网要求网络资源的语义知识被加到文档中去,文档是机器可以处理的。信息抽取、分词、词性标注、句法分析等语义标注技术都相对比较成熟,将语义标注应用于网络资源越来越受人们的关注,逐渐成为语义网研究的重要组成部分。本体的本质就是通过对领域内概念和概念之间关系的严格定义来确定概念的精确含义,从而提供对该领域知识的共同理解,达到知识的共享和重用,使该领域内的不同系统、模型间能够进行互操作。本体作为一种能在知识层面提供知识共享和重用的工具,为语义网提供了可共享、概念化的知识模型。网络资源的语义标注是语料库的标注思想和技术在网络中的应用。文章第一章主要介绍了网络标注提出的背景及在国内外的研究现状。第二章介绍了框架语义学、汉语框架网络工程及基于汉语框架的领域本体的构建。第三章重点介绍了网络标注的流程,及各流程的实现。并在通过介绍汉语框架网络本体构建和网络标注相关知识和背景,分析网络标注流程和流程的实现技术的基础上,提出了基于汉语框架本体的网络标注模型。分别从本体管理、信息获取、依存处理、角色标注和结果存储五个方面对网络标注进行阐述。文章第四章,从文本匹配和最大熵两个方面为例,对网络标注角色赋予的算法和实现进行说明,并以“盗窃”框架中的词元“偷”为例进行了例证。