论文部分内容阅读
实体关系抽取不仅是信息抽取中的必要环节,更是许多后续工作例如事件发现、本体知识库构建等的基础环节。研究如何提高命名实体关系抽取技术的高效准确性是一项具有重大意义的工作。实体关系抽取核心问题在于研究两对实体之间的相似性,并能够正确分类实体关系。同时还需要解决人工干预多、标注语料难的问题。本文首先结合旅游领域句子较短的特点,探索了一种新的复合核函数进行有指导实体关系抽取。该文采用卷积树核的方法计算实体对之间的相似性。为降低句法解析器性能对树核函数的影响,将其与词序列核复合,采用一种能同时融合关系实例的句法信息、语义信息、词性信息和词序列信息的复合核函数的实体关系抽取方法。在旅游领域的语料上测试,相对于传统的基于特征向量和卷积树核方法,关系抽取性能都有了一定的提高。本文结合旅游领域特点采用了一种基于最小熵值的弱指导实体关系抽取方法。该方法首先在小规模的分层标注实例上通过标量聚类的思想进行特征词汇的抽取,并用最大熵机器学习算法构造初始分类器,然后利用有一定准确度的初始分类器对未标注实例进行分类,将最小信息熵值的实例加入训练语料集中来不断扩展训练语料集的规模,最后,重复以上迭代过程,直至分类器性能趋于稳定,此时便构造出了最终的特定领域实体关系抽取分类器。在旅游领域语料上的实验证明,该方法不仅可以减少实体关系抽取对人工干预的依赖性,而且可以比较有效地提高实体关系抽取性能,其F值可达到63.69。本文采用一种基于条件随机场模型和规则相结合的旅游领域实体关系语义标签抽取方法。该方法首先采用命名实体识别的分类思想,在上下文语境中将能够体现实体关系的语义词汇作为语义标签来标注,利用CRF识别语义标签,然后分别根据两个实体及语义标签的位置信息和规则,将语义标签赋给相关联的实体对。在旅游领域语料上进行的实验表明,采用该方法的F值最高可达到73.68,说明了该方法对于实体关系语义标签抽取可行有效。实验结果表明,上述方法提高了关系抽取和语义标签抽取的性能,为下一步的研究工作奠定了良好的基础。