基于中文百科的概念知识库构建

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lsui321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动互联网、物联网、云计算等技术迅猛发展,网络应用层出不穷,引发了网络数据的爆炸式增长。如何从大规模数据中获取有价值的知识并对其进行深入的计算和分析成为了当前研究的热点。目前,世界上已有的知识库中大部分都是以英文维基百科或其他英文资源为基础构建的。中文百科(百度百科、互动百科和中文维基百科)涵盖规模大、覆盖率高、更新速度快,具有很高的研究价值。本文致力于构建一个基于中文百科的知识库,根据实际需求重点做了以下几个工作:(1)百科网页爬虫及网页分析:本文以广度优先的方法下载百科开放分类和词条的链接,然后使用多线程的策略下载网页内容;通过分析网页结构特征,利用启发式规则等方法从网页中抽取出语义信息。(2)概念层次结构构建:本文提出了一种从互动百科开放分类体系中构建概念之间的层次结构的方法,通过提取开放分类的语言规则特征和语义特征,以决策树分类器作为基分类器,训练Adaboost模型抽取百科开放分类之间的上下位关系,构建概念层次结构:使用同样的方法抽取百科分类与词条之间的上下位关系,确定分类的实例。(3)属性值抽取:本文使用条件随机场的方法抽取属性值。首先从百科网页中抽取出信息框属性和属性值,用它们来学习得到训练数据集及需要抽取的属性集,然后使用关键字匹配的方法从词条正文中抽取得到候选句子,最后训练条件随机场模型从候选句子中抽取属性值。本文以互动百科开放分类体系为基础初步构建了概念层次系统,并且以互动百科“人物”分类下的词条为数据集进行属性值抽取实验,取得了良好的效果。
其他文献
随着信息技术和互联网技术的飞速发展,可供人们利用的多媒体资源的数量也日趋庞大,由于受到传统基于文本检索技术的限制,仅通过现有的搜索引擎(如Google、百度)人们在不少情
学位
物体的识别检测是计算机视觉领域各项研究中的基础环节,对物体进行准确的识别检测能够为计算机视觉中的其他研究工作提供良好的指导。在基于学习有监督的物体识别检测中主要
植物是人类赖以生存的必要元素,一直以来都是人类关注的焦点。随着计算机视觉以及机器学习的高速发展,人们越来越希望能对利用计算机来自动完成植物图像的分类、识别、检索工
随着Internet的发展,为了能够有效地组织和分析海量的Web信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。它
在电信市场竞争日益激烈的今天,大客户对于运营商的重要性不言而喻。80%的电信收入来源于20%的大客户。发展大客户用户,可以使运营商在市场竞争中获得更大的价值利益。为了改
传统的案例浏览以案例的非结构化文本形式为基础,计算机并不理解案例中的信息。在这种方式中,案例浏览者必须详细阅读案例以提取其中的有用信息。这样做的缺点是比较耗时,而
网络流量特性的分析、流量建模以及流量预测对于新一代网络协议设计、网络管理和提高网络服务质量等都有重要的意义。本文也正是以网络流量特性分析为出发点,对网络流量预测
随着通信技术的迅速发展,第三代通信技术已经逐渐走进人们的生活,它对无线通信和数据传输的巨大支持,使人们正在享受着许多更快更好的信息服务。与此同时,人们对于互联网的期
随着计算机技术、网络显示技术的高速发展,基于网络的视频显示控制技术引起人们极大的研究兴趣,在机器视觉、大屏幕显示等方面都有着很大的应用潜力。   论文对显示控制技术