实体链接关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liubangming98168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。实体歧义问题给信息处理领域的很多任务带来了严重问题,信息检索和抽取、知识工程等任务都需要功能强大的实体消歧系统做支撑。研究高性能的实体消歧技术具有重要的学术和应用价值。   实体链接是解决命名实体歧义问题的一种重要方法,该方法通过将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除。本文针对实体链接任务中的核心问题:实体指称项与候选实体之间语义相似度的计算展开深入研究。论文的主要工作和创新点归纳如下:   1、提出了基于维基概念语言模型的实体链接方法,有效提升了指称项文本与候选实体之间语义相似度计算的准确性   实体链接的关键问题是实体指称项文本与候选实体之间语义相似度的计算。传统的基于词袋子模型的相似度计算方法仅仅考虑实体指称项与候选实体的文本表层特征,不能捕捉到存在于文本内部的语义信息。为了使得相似度的计算更加准确,本文提出了一种基于维基概念语言模型的方法来计算实体指称项与候选实体之间的语义相似度。通过将实体指称项文本与候选实体分别映射到维基概念语义空间中来获得它们在概念空间上的语义表达。进一步,本文给出了利用维基百科的结构化信息估计概念语言模型的方法,设计并实现了基于维基概念语言模型方法的实体链接系统。在KBP数据集上的实验结果表明,相比于基于词的语言模型方法,本文提出的方法取得了6.1%的性能提升;相比于State-of-Art系统,该方法也取得了1.8%的性能提升。   2、提出了基于排序学习框架的实体链接方法,并给出了一种可以融合类别关系与链接关系的维基概念相似度计算方法,有效提升了实体链接系统的性能   为了充分利用存在于维基百科中的各种结构化信息进行语义相似度计算,本文提出了一种可以融合类别关系与链接关系的维基概念相似度计算方法。首先根据维基概念之间的结构化信息定义维基概念图。然后根据定义好的维基概念图,利用在维基图上的随机游走算法确定维基概念之间的相似度。在此基础上,本文设计并实现了一个基于排序学习算法框架的实体链接系统,将该相似度特征融入到本文设计的系统中,取得了较好的效果。在KBP数据集上的实验结果表明,相比于传统的维基概念相似度计算方法,该系统取得了4.3%的性能提升;相比于State-of-Art系统,该系统也取得了有竞争力的结果。   3、提出了基于双语隐含主题模型的跨语言实体链接方法,这种方法可以避免跨语言实体链接对机器翻译系统的依赖   传统的跨语言实体链接方法往往依赖于统计机器翻译系统,通过将实体指称项文本翻译成与知识库相同的语言进而将该问题转化为传统的单语言实体链接问题。该方法的缺点是对训练数据的要求较高,往往需要在句子级别对齐的大量双语平行语料。本文提出一种基于双语隐含主题模型的跨语言实体链接方法,该方法从语义上相关的大规模双语平行语料库中挖掘隐含主题信息,训练隐含主题模型,然后利用双语隐含主题模型将实体指称项文本与候选实体文本映射到同一个隐含主题空间中去,从而进行主题语义上的相似度计算。在KBP评测数据上的实验结果表明,与基于统计机器翻译系统的跨语言实体链接系统相比,本文提出的方法取得了有竞争力的结果。
其他文献
该文对工业CT局部找描的重建算法及其在计算机上的实现进行了研究.论文介绍了研究背景,通过比较分析,定出了将平行束扫描方式下的局部图象重建作为课题的研究内容.
多任务学习用于同时学习多个相关任务,通过联合学习,它既保持了任务间的差异性又充分利用其相关性,从而从整体上提高所有任务的学习性能。多任务学习引起了很多学者的关注,基于不
基于图像的物体定位是计算机视觉领域的一个重要内容,在诸如机器人导航和虚拟现实等领域有重要的应用价值。本文对基于点对应的物体定位方法进行了比较系统的研究,包括多解性,解
模式分类是机器学习和模式识别的核心问题,而特征表示和分类器设计又是模式分类的关键步骤。大量的特征提取方法以及分类器模型被相继提出并在实际问题中得以广泛应用。然而绝
基于视觉的定位方式是机器人领域应用较为普遍的定位方式之一,目前已得到了国内外众多科研工作者的广泛重视,具有较为广阔的应用前景。基于普通视觉的定位方式视野狭窄,路标检测
半监督学习是一种应用驱动而产生的机器学习方法,已经成为人工智能和模式识别领域的研究热点之一。作为该领域的主要分支,半监督聚类将给定的少量监督信息引入最优聚类的搜索过
对于脱机手写中文文本识别,字符切分是其中一个十分重要的部分。由于在字符识别之前不能准确地切分,往往采取过切分方法,即将字符串切分成基元片段,然后结合字符识别和上下文动态
电视节目结构化与摘要技术是多媒体内容分析领域研究的主要问题,在视频数据的浏览和检索领域有广泛的应用价值和商业价值。虽然经过多年的研究,电视节目结构化与摘要技术已有了
机器人打乒乓球是机器人作业的一种较高形式,也是机器人领域的前沿课题和难题。目前国内外已有多家单位开展相关研究,研制的原型样机基本实现了非旋转球的简单推挡动作。打乒乓
在机器人应用领域,视觉引导是控制机器人移动作业的关键技术和重要途径。对于打乒乓球机器人而言,视觉系统是其实现自我感知与环境交互,并捕捉环境中感兴趣目标的重要手段。基于