基于半监督学习的多特征大规模实体分类

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chouddy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,当今互联网上的信息量已经十分庞大。从这些数据中构建机器可读的知识库,包括世界上所有的实体、及它们精确的语义信息和关系成为非常重要的问题。类似维基百科的协同编辑知识库的出现,给许多尝试理解语义信息的算法带来了机会。然而维基百科中所能利用的信息大都是非结构化的,而且它们主要是由自然语言构成,因此容易给那些算法带来噪声。如果能够自动构建出和维基百科一样全面,同时更加精确的实体知识库,那么将会进一步提高现有算法的能力,同时让诸如语义搜索等以往不可能的应用成为可能。另一方面,随着语义网研究的不断深入、实用化,越来越多的企业组织开始用语义技术管理企业的数据。在定义出所需本体之后,随即需要考虑的问题就是如何将本体填充数据。通过利用企业原本的结构化数据库中的数据,甚至利用链接开放数据中相关的信息,可以快速填充高质量的实体数据进入本体。利用什么样的方法获得大规模实体分类知识库,使人工标注代价尽可能小的同时,保证实体分类信息的质量便是本文重点研究的目的。它有三方面的挑战:如何从多个数据源中收集实体分类所需要的多方面特征?如何根据本体半自动获得实体分类所需要的训练数据?如何有效合理的评测大规模实体分类的结果?本文中将介绍一个半自动实用实体分类框架试图应对这些挑战。它包含一个预处理阶段和后续三个阶段。在预处理阶段中进行多数据源的实例匹配与特征整合;第一阶段中半自动的发现种子实体;这些种子实体作为训练数据,在第二阶段的半监督学习中得到扩充;第三阶段是有效的参数选择与评估,同时输出实体分类。实验表明,在中文百科数据集中,有一定量重合的实体,合并之后的数据源有着比任何单一数据源多的实体数目。匹配的实体之间的特征互相补充,为实体分类带来了全面而有效的多方面特征,显著提高了分类器的质量。本文提出的模板选择与优化的方法,可以实现半自动的种子发现,该方法实现了极高的标注效率,并达到或接近了单独标注实体的效果。在实验中,本文提出的ExCore算法能自动生成足够多的负例,且用在分类器训练上时也可以达到或接近手工标注负例的效果。这些实验表明,利用本文提出的半自动实用实体分类框架能利用多方面特征,使用极少的标注代价,有效的进行大规模实体分类。
其他文献
针对Web服务的发布、发现和使用过程,已有的工作主要体现在:(1)基于UDDI扩充服务语义信息,以提高服务描述和发现的精确度;(2)研究支持Web服务合成的相关框架,提供支持Web服务
图像增强和边缘检测是当前图像处理领域研究热点,本文在国家数字化医学影像设备工程技术研究中心支持下,研究了多尺度对比增强算法与图像方向性边缘检测。 在充分利用拉普拉
该文首先提出态势觉察、态势理解及未来态势预测三级态势估计功能模型,然后具体分析了各个部门实现的功能;通过几个实例分析了态势估计问题的本质特征和推理模式,归纳出态势
随着互联网技术的迅猛发展及高校规模的急骤扩张,各类网上远程教育及网上虚拟实验室应运而生。本论文提出了基于Internet的EDA虚拟实验室概念,并对其意义、特点、发展现状及设
本文在总结并行算法和网格资源的特点后,在矩阵划分基础上,重点研究了网格环境下一些常用数值计算算法,例如矩阵乘法、线性方程组和矩阵特征值。其中,对于矩阵乘法在客户/服务器
工作流(Workflow)技术用计算机自动执行组织机构中的部分或全部业务流程,从而显著提高业务流程处理的性能和效率。由于工作流系统中的所有信息都是通过网络传输,不可避免会遭受
学位
数控切削参数是数控加工中的核心要素之一,直接影响着数控加工技术水平和生产效率。长期以来,数控切削参数的处理一直是制约数控技术的主要瓶颈,采用软件技术解决数控切削参
本论文描述了一种方兴未艾的高可靠性的网络安全技术,它利用多因素的强身份认证技术,结合角色授权及访问控制共同来保护企业的重要资源,介绍了多因素强身份认证技术产生的背景及
学位