基于半监督学习的多特征大规模实体分类

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：chouddy

【摘要】

：

随着互联网的发展，当今互联网上的信息量已经十分庞大。从这些数据中构建机器可读的知识库，包括世界上所有的实体、及它们精确的语义信息和关系成为非常重要的问题。类似维基百

【作者】

：

孙辛若

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2013年期

【关键词】

：

本体扩充实体分类半监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展，当今互联网上的信息量已经十分庞大。从这些数据中构建机器可读的知识库，包括世界上所有的实体、及它们精确的语义信息和关系成为非常重要的问题。类似维基百科的协同编辑知识库的出现，给许多尝试理解语义信息的算法带来了机会。然而维基百科中所能利用的信息大都是非结构化的，而且它们主要是由自然语言构成，因此容易给那些算法带来噪声。如果能够自动构建出和维基百科一样全面，同时更加精确的实体知识库，那么将会进一步提高现有算法的能力，同时让诸如语义搜索等以往不可能的应用成为可能。另一方面，随着语义网研究的不断深入、实用化，越来越多的企业组织开始用语义技术管理企业的数据。在定义出所需本体之后，随即需要考虑的问题就是如何将本体填充数据。通过利用企业原本的结构化数据库中的数据，甚至利用链接开放数据中相关的信息，可以快速填充高质量的实体数据进入本体。利用什么样的方法获得大规模实体分类知识库，使人工标注代价尽可能小的同时，保证实体分类信息的质量便是本文重点研究的目的。它有三方面的挑战：如何从多个数据源中收集实体分类所需要的多方面特征？如何根据本体半自动获得实体分类所需要的训练数据？如何有效合理的评测大规模实体分类的结果？本文中将介绍一个半自动实用实体分类框架试图应对这些挑战。它包含一个预处理阶段和后续三个阶段。在预处理阶段中进行多数据源的实例匹配与特征整合；第一阶段中半自动的发现种子实体；这些种子实体作为训练数据，在第二阶段的半监督学习中得到扩充；第三阶段是有效的参数选择与评估，同时输出实体分类。实验表明，在中文百科数据集中，有一定量重合的实体，合并之后的数据源有着比任何单一数据源多的实体数目。匹配的实体之间的特征互相补充，为实体分类带来了全面而有效的多方面特征，显著提高了分类器的质量。本文提出的模板选择与优化的方法，可以实现半自动的种子发现，该方法实现了极高的标注效率，并达到或接近了单独标注实体的效果。在实验中，本文提出的ExCore算法能自动生成足够多的负例，且用在分类器训练上时也可以达到或接近手工标注负例的效果。这些实验表明，利用本文提出的半自动实用实体分类框架能利用多方面特征，使用极少的标注代价，有效的进行大规模实体分类。

其他文献

支持Web服务合成的关键技术研究

针对Web服务的发布、发现和使用过程,已有的工作主要体现在:(1)基于UDDI扩充服务语义信息,以提高服务描述和发现的精确度;(2)研究支持Web服务合成的相关框架,提供支持Web服务

学位

Web服务Web服务Web服务合成Web服务合成分布资源分布资源本体知识本体知识领域本体领域本体异构冲突异构冲突消解规则消解规则服务发现服务发现

多尺度对比增强算法与图像方向性边缘检测

图像增强和边缘检测是当前图像处理领域研究热点，本文在国家数字化医学影像设备工程技术研究中心支持下，研究了多尺度对比增强算法与图像方向性边缘检测。在充分利用拉普拉

学位

图像处理图像增强边缘检测拉普拉斯金字塔方向性边缘

数据融合中态势估计技术研究

该文首先提出态势觉察、态势理解及未来态势预测三级态势估计功能模型,然后具体分析了各个部门实现的功能;通过几个实例分析了态势估计问题的本质特征和推理模式,归纳出态势

学位

数据融合态势估计黑板模型规划识别贝叶斯网络

基于Internet的EDA虚拟实验室及虚拟仪器系统研究

随着互联网技术的迅猛发展及高校规模的急骤扩张，各类网上远程教育及网上虚拟实验室应运而生。本论文提出了基于Internet的EDA虚拟实验室概念，并对其意义、特点、发展现状及设

学位

EDA虚拟实验室虚拟仪器InternetB/S结构模型

网格环境下数值计算方法研究

本文在总结并行算法和网格资源的特点后，在矩阵划分基础上，重点研究了网格环境下一些常用数值计算算法，例如矩阵乘法、线性方程组和矩阵特征值。其中，对于矩阵乘法在客户/服务器

学位

网格计算资源管理任务调度MM5模式网格资源

基于角色-任务的工作流系统存取控制模型

工作流(Workflow)技术用计算机自动执行组织机构中的部分或全部业务流程，从而显著提高业务流程处理的性能和效率。由于工作流系统中的所有信息都是通过网络传输，不可避免会遭受

学位

RBAC工作流角色任务存取控制职责分离

中文微博突发事件及其发布源检测

学位

分布式数控切削参数智能决策系统研究与实现

数控切削参数是数控加工中的核心要素之一,直接影响着数控加工技术水平和生产效率。长期以来,数控切削参数的处理一直是制约数控技术的主要瓶颈,采用软件技术解决数控切削参

学位

数控加工切削参数推理决策规则库J2EEEJB

多因素强身份认证技术的应用研究及实现过程

本论文描述了一种方兴未艾的高可靠性的网络安全技术，它利用多因素的强身份认证技术，结合角色授权及访问控制共同来保护企业的重要资源，介绍了多因素强身份认证技术产生的背景及

学位

强身份认证PKI网络安全加密令牌访问控制角色授权

视频字幕的识别及浅层语义分析

学位

基于半监督学习的多特征大规模实体分类

与本文相关的学术论文