基于中文百科的概念知识库构建

来源 :浙江大学 | 被引量 : 0次 | 上传用户：lsui321

【摘要】

：

近年来,移动互联网、物联网、云计算等技术迅猛发展,网络应用层出不穷,引发了网络数据的爆炸式增长。如何从大规模数据中获取有价值的知识并对其进行深入的计算和分析成为了

【作者】

：

王龙甫

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2015年期

【关键词】

：

上下位关系条件随机场属性值知识库百科

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,移动互联网、物联网、云计算等技术迅猛发展,网络应用层出不穷,引发了网络数据的爆炸式增长。如何从大规模数据中获取有价值的知识并对其进行深入的计算和分析成为了当前研究的热点。目前,世界上已有的知识库中大部分都是以英文维基百科或其他英文资源为基础构建的。中文百科(百度百科、互动百科和中文维基百科)涵盖规模大、覆盖率高、更新速度快,具有很高的研究价值。本文致力于构建一个基于中文百科的知识库,根据实际需求重点做了以下几个工作：(1)百科网页爬虫及网页分析：本文以广度优先的方法下载百科开放分类和词条的链接,然后使用多线程的策略下载网页内容；通过分析网页结构特征,利用启发式规则等方法从网页中抽取出语义信息。(2)概念层次结构构建：本文提出了一种从互动百科开放分类体系中构建概念之间的层次结构的方法,通过提取开放分类的语言规则特征和语义特征,以决策树分类器作为基分类器,训练Adaboost模型抽取百科开放分类之间的上下位关系,构建概念层次结构：使用同样的方法抽取百科分类与词条之间的上下位关系,确定分类的实例。(3)属性值抽取：本文使用条件随机场的方法抽取属性值。首先从百科网页中抽取出信息框属性和属性值,用它们来学习得到训练数据集及需要抽取的属性集,然后使用关键字匹配的方法从词条正文中抽取得到候选句子,最后训练条件随机场模型从候选句子中抽取属性值。本文以互动百科开放分类体系为基础初步构建了概念层次系统,并且以互动百科“人物”分类下的词条为数据集进行属性值抽取实验,取得了良好的效果。

其他文献

基于音乐旋律匹配算法的研究

随着信息技术和互联网技术的飞速发展,可供人们利用的多媒体资源的数量也日趋庞大,由于受到传统基于文本检索技术的限制,仅通过现有的搜索引擎(如Google、百度)人们在不少情

学位

特征提取旋律匹配二层式音乐检索N-GramDTW

卷接设备工艺风力与风力送丝除尘自动监控系统的研究与实现

学位

基于快速鲁棒性特征的物体识别检测算法研究

物体的识别检测是计算机视觉领域各项研究中的基础环节,对物体进行准确的识别检测能够为计算机视觉中的其他研究工作提供良好的指导。在基于学习有监督的物体识别检测中主要

学位

物体识别检测快速鲁棒性特征词袋模型多分辨率均值平移

植物图像检索系统的关键技术研究与实现

植物是人类赖以生存的必要元素,一直以来都是人类关注的焦点。随着计算机视觉以及机器学习的高速发展,人们越来越希望能对利用计算机来自动完成植物图像的分类、识别、检索工

学位

植物图像图像检索特征提取特征融合

基于支持向量机的网页分类技术研究

随着Internet的发展,为了能够有效地组织和分析海量的Web信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。它

学位

支持向量机网页分类SMO算法增量学习超平面距离

大客户网络管理系统的分析与设计

在电信市场竞争日益激烈的今天,大客户对于运营商的重要性不言而喻。80%的电信收入来源于20%的大客户。发展大客户用户,可以使运营商在市场竞争中获得更大的价值利益。为了改

学位

大客户电信管理网基于Web的管理公共对象请求代理体系结构可扩展标记语言

基于本体的应急案例语义浏览研究及应用

传统的案例浏览以案例的非结构化文本形式为基础,计算机并不理解案例中的信息。在这种方式中,案例浏览者必须详细阅读案例以提取其中的有用信息。这样做的缺点是比较耗时,而

学位

应急案例本体语义标识语义浏览

结合分形神经网络理论的网络流量预测研究

网络流量特性的分析、流量建模以及流量预测对于新一代网络协议设计、网络管理和提高网络服务质量等都有重要的意义。本文也正是以网络流量特性分析为出发点,对网络流量预测

学位

分形自相似预测带宽分配

短信名址系统的研究与应用

随着通信技术的迅速发展,第三代通信技术已经逐渐走进人们的生活,它对无线通信和数据传输的巨大支持,使人们正在享受着许多更快更好的信息服务。与此同时,人们对于互联网的期

学位

短信名址J2ME移动终端系统安全

嵌入式多制式以太网显示技术研究与设计

随着计算机技术、网络显示技术的高速发展，基于网络的视频显示控制技术引起人们极大的研究兴趣，在机器视觉、大屏幕显示等方面都有着很大的应用潜力。　　论文对显示控制技术

学位

嵌入式系统驱动程序以太网网络显示机器视觉

基于中文百科的概念知识库构建

其他学术论文