论文部分内容阅读
近年来,移动互联网、物联网、云计算等技术迅猛发展,网络应用层出不穷,引发了网络数据的爆炸式增长。如何从大规模数据中获取有价值的知识并对其进行深入的计算和分析成为了当前研究的热点。目前,世界上已有的知识库中大部分都是以英文维基百科或其他英文资源为基础构建的。中文百科(百度百科、互动百科和中文维基百科)涵盖规模大、覆盖率高、更新速度快,具有很高的研究价值。本文致力于构建一个基于中文百科的知识库,根据实际需求重点做了以下几个工作:(1)百科网页爬虫及网页分析:本文以广度优先的方法下载百科开放分类和词条的链接,然后使用多线程的策略下载网页内容;通过分析网页结构特征,利用启发式规则等方法从网页中抽取出语义信息。(2)概念层次结构构建:本文提出了一种从互动百科开放分类体系中构建概念之间的层次结构的方法,通过提取开放分类的语言规则特征和语义特征,以决策树分类器作为基分类器,训练Adaboost模型抽取百科开放分类之间的上下位关系,构建概念层次结构:使用同样的方法抽取百科分类与词条之间的上下位关系,确定分类的实例。(3)属性值抽取:本文使用条件随机场的方法抽取属性值。首先从百科网页中抽取出信息框属性和属性值,用它们来学习得到训练数据集及需要抽取的属性集,然后使用关键字匹配的方法从词条正文中抽取得到候选句子,最后训练条件随机场模型从候选句子中抽取属性值。本文以互动百科开放分类体系为基础初步构建了概念层次系统,并且以互动百科“人物”分类下的词条为数据集进行属性值抽取实验,取得了良好的效果。