论文部分内容阅读
随着互联网的发展,当今互联网上的信息量已经十分庞大。从这些数据中构建机器可读的知识库,包括世界上所有的实体、及它们精确的语义信息和关系成为非常重要的问题。类似维基百科的协同编辑知识库的出现,给许多尝试理解语义信息的算法带来了机会。然而维基百科中所能利用的信息大都是非结构化的,而且它们主要是由自然语言构成,因此容易给那些算法带来噪声。如果能够自动构建出和维基百科一样全面,同时更加精确的实体知识库,那么将会进一步提高现有算法的能力,同时让诸如语义搜索等以往不可能的应用成为可能。另一方面,随着语义网研究的不断深入、实用化,越来越多的企业组织开始用语义技术管理企业的数据。在定义出所需本体之后,随即需要考虑的问题就是如何将本体填充数据。通过利用企业原本的结构化数据库中的数据,甚至利用链接开放数据中相关的信息,可以快速填充高质量的实体数据进入本体。利用什么样的方法获得大规模实体分类知识库,使人工标注代价尽可能小的同时,保证实体分类信息的质量便是本文重点研究的目的。它有三方面的挑战:如何从多个数据源中收集实体分类所需要的多方面特征?如何根据本体半自动获得实体分类所需要的训练数据?如何有效合理的评测大规模实体分类的结果?本文中将介绍一个半自动实用实体分类框架试图应对这些挑战。它包含一个预处理阶段和后续三个阶段。在预处理阶段中进行多数据源的实例匹配与特征整合;第一阶段中半自动的发现种子实体;这些种子实体作为训练数据,在第二阶段的半监督学习中得到扩充;第三阶段是有效的参数选择与评估,同时输出实体分类。实验表明,在中文百科数据集中,有一定量重合的实体,合并之后的数据源有着比任何单一数据源多的实体数目。匹配的实体之间的特征互相补充,为实体分类带来了全面而有效的多方面特征,显著提高了分类器的质量。本文提出的模板选择与优化的方法,可以实现半自动的种子发现,该方法实现了极高的标注效率,并达到或接近了单独标注实体的效果。在实验中,本文提出的ExCore算法能自动生成足够多的负例,且用在分类器训练上时也可以达到或接近手工标注负例的效果。这些实验表明,利用本文提出的半自动实用实体分类框架能利用多方面特征,使用极少的标注代价,有效的进行大规模实体分类。