论文部分内容阅读
命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。实体歧义问题给信息处理领域的很多任务带来了严重问题,信息检索和抽取、知识工程等任务都需要功能强大的实体消歧系统做支撑。研究高性能的实体消歧技术具有重要的学术和应用价值。
实体链接是解决命名实体歧义问题的一种重要方法,该方法通过将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除。本文针对实体链接任务中的核心问题:实体指称项与候选实体之间语义相似度的计算展开深入研究。论文的主要工作和创新点归纳如下:
1、提出了基于维基概念语言模型的实体链接方法,有效提升了指称项文本与候选实体之间语义相似度计算的准确性
实体链接的关键问题是实体指称项文本与候选实体之间语义相似度的计算。传统的基于词袋子模型的相似度计算方法仅仅考虑实体指称项与候选实体的文本表层特征,不能捕捉到存在于文本内部的语义信息。为了使得相似度的计算更加准确,本文提出了一种基于维基概念语言模型的方法来计算实体指称项与候选实体之间的语义相似度。通过将实体指称项文本与候选实体分别映射到维基概念语义空间中来获得它们在概念空间上的语义表达。进一步,本文给出了利用维基百科的结构化信息估计概念语言模型的方法,设计并实现了基于维基概念语言模型方法的实体链接系统。在KBP数据集上的实验结果表明,相比于基于词的语言模型方法,本文提出的方法取得了6.1%的性能提升;相比于State-of-Art系统,该方法也取得了1.8%的性能提升。
2、提出了基于排序学习框架的实体链接方法,并给出了一种可以融合类别关系与链接关系的维基概念相似度计算方法,有效提升了实体链接系统的性能
为了充分利用存在于维基百科中的各种结构化信息进行语义相似度计算,本文提出了一种可以融合类别关系与链接关系的维基概念相似度计算方法。首先根据维基概念之间的结构化信息定义维基概念图。然后根据定义好的维基概念图,利用在维基图上的随机游走算法确定维基概念之间的相似度。在此基础上,本文设计并实现了一个基于排序学习算法框架的实体链接系统,将该相似度特征融入到本文设计的系统中,取得了较好的效果。在KBP数据集上的实验结果表明,相比于传统的维基概念相似度计算方法,该系统取得了4.3%的性能提升;相比于State-of-Art系统,该系统也取得了有竞争力的结果。
3、提出了基于双语隐含主题模型的跨语言实体链接方法,这种方法可以避免跨语言实体链接对机器翻译系统的依赖
传统的跨语言实体链接方法往往依赖于统计机器翻译系统,通过将实体指称项文本翻译成与知识库相同的语言进而将该问题转化为传统的单语言实体链接问题。该方法的缺点是对训练数据的要求较高,往往需要在句子级别对齐的大量双语平行语料。本文提出一种基于双语隐含主题模型的跨语言实体链接方法,该方法从语义上相关的大规模双语平行语料库中挖掘隐含主题信息,训练隐含主题模型,然后利用双语隐含主题模型将实体指称项文本与候选实体文本映射到同一个隐含主题空间中去,从而进行主题语义上的相似度计算。在KBP评测数据上的实验结果表明,与基于统计机器翻译系统的跨语言实体链接系统相比,本文提出的方法取得了有竞争力的结果。