实体链接关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：liubangming98168

【摘要】

：

命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。实体歧义问题给信息处理领域的很多任务带来了严重问题，信息检索和抽取、知识工程等任

【作者】

：

张涛

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

实体消歧实体链接语言模型信息检索主题模型语义相似度计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。实体歧义问题给信息处理领域的很多任务带来了严重问题，信息检索和抽取、知识工程等任务都需要功能强大的实体消歧系统做支撑。研究高性能的实体消歧技术具有重要的学术和应用价值。　　实体链接是解决命名实体歧义问题的一种重要方法，该方法通过将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除。本文针对实体链接任务中的核心问题:实体指称项与候选实体之间语义相似度的计算展开深入研究。论文的主要工作和创新点归纳如下:　　 1、提出了基于维基概念语言模型的实体链接方法，有效提升了指称项文本与候选实体之间语义相似度计算的准确性　　实体链接的关键问题是实体指称项文本与候选实体之间语义相似度的计算。传统的基于词袋子模型的相似度计算方法仅仅考虑实体指称项与候选实体的文本表层特征，不能捕捉到存在于文本内部的语义信息。为了使得相似度的计算更加准确，本文提出了一种基于维基概念语言模型的方法来计算实体指称项与候选实体之间的语义相似度。通过将实体指称项文本与候选实体分别映射到维基概念语义空间中来获得它们在概念空间上的语义表达。进一步，本文给出了利用维基百科的结构化信息估计概念语言模型的方法，设计并实现了基于维基概念语言模型方法的实体链接系统。在KBP数据集上的实验结果表明，相比于基于词的语言模型方法，本文提出的方法取得了6.1％的性能提升;相比于State-of-Art系统，该方法也取得了1.8％的性能提升。　　 2、提出了基于排序学习框架的实体链接方法，并给出了一种可以融合类别关系与链接关系的维基概念相似度计算方法，有效提升了实体链接系统的性能　　为了充分利用存在于维基百科中的各种结构化信息进行语义相似度计算，本文提出了一种可以融合类别关系与链接关系的维基概念相似度计算方法。首先根据维基概念之间的结构化信息定义维基概念图。然后根据定义好的维基概念图，利用在维基图上的随机游走算法确定维基概念之间的相似度。在此基础上，本文设计并实现了一个基于排序学习算法框架的实体链接系统，将该相似度特征融入到本文设计的系统中，取得了较好的效果。在KBP数据集上的实验结果表明，相比于传统的维基概念相似度计算方法，该系统取得了4.3％的性能提升;相比于State-of-Art系统，该系统也取得了有竞争力的结果。　　 3、提出了基于双语隐含主题模型的跨语言实体链接方法，这种方法可以避免跨语言实体链接对机器翻译系统的依赖　　传统的跨语言实体链接方法往往依赖于统计机器翻译系统，通过将实体指称项文本翻译成与知识库相同的语言进而将该问题转化为传统的单语言实体链接问题。该方法的缺点是对训练数据的要求较高，往往需要在句子级别对齐的大量双语平行语料。本文提出一种基于双语隐含主题模型的跨语言实体链接方法，该方法从语义上相关的大规模双语平行语料库中挖掘隐含主题信息，训练隐含主题模型，然后利用双语隐含主题模型将实体指称项文本与候选实体文本映射到同一个隐含主题空间中去，从而进行主题语义上的相似度计算。在KBP评测数据上的实验结果表明，与基于统计机器翻译系统的跨语言实体链接系统相比，本文提出的方法取得了有竞争力的结果。

其他文献

工业CT局部扫描重建算法研究

该文对工业CT局部找描的重建算法及其在计算机上的实现进行了研究.论文介绍了研究背景,通过比较分析,定出了将平行束扫描方式下的局部图象重建作为课题的研究内容.

学位

CT局部扫描重建算法图象重建

多任务学习理论与方法研究

多任务学习用于同时学习多个相关任务，通过联合学习，它既保持了任务间的差异性又充分利用其相关性，从而从整体上提高所有任务的学习性能。多任务学习引起了很多学者的关注，基于不

学位

多任务学习性能实验公共子空间图结构约束几何保持性

物体定位与图像校正研究

基于图像的物体定位是计算机视觉领域的一个重要内容，在诸如机器人导航和虚拟现实等领域有重要的应用价值。本文对基于点对应的物体定位方法进行了比较系统的研究，包括多解性，解

学位

摄像机姿态估计PnP问题摄像机内参数标定图象校正物体定位

大类别集分类与自适应及其在汉字识别中的应用

模式分类是机器学习和模式识别的核心问题，而特征表示和分类器设计又是模式分类的关键步骤。大量的特征提取方法以及分类器模型被相继提出并在实际问题中得以广泛应用。然而绝

学位

模式分类特征表示分类器设计大类别集非参数降维手写汉字识别

鱼眼镜头标定及其定位技术研究

基于视觉的定位方式是机器人领域应用较为普遍的定位方式之一，目前已得到了国内外众多科研工作者的广泛重视，具有较为广阔的应用前景。基于普通视觉的定位方式视野狭窄，路标检测

学位

移动机器人鱼眼图像镜头标定板定位技术图像校正特征提取

基于TrI-training的半监督学习算法研究

半监督学习是一种应用驱动而产生的机器学习方法，已经成为人工智能和模式识别领域的研究热点之一。作为该领域的主要分支，半监督聚类将给定的少量监督信息引入最优聚类的搜索过

学位

半监督学习Tri-training算法Seeds集成对约束主动学习

脱机中文手写字符串切分方法研究

对于脱机手写中文文本识别，字符切分是其中一个十分重要的部分。由于在字符识别之前不能准确地切分，往往采取过切分方法，即将字符串切分成基元片段，然后结合字符识别和上下文动态

学位

脱机中文手写文本识别字符串切分过切分算法轮廓匹配

电视节目结构化分析与摘要技术研究

电视节目结构化与摘要技术是多媒体内容分析领域研究的主要问题，在视频数据的浏览和检索领域有广泛的应用价值和商业价值。虽然经过多年的研究，电视节目结构化与摘要技术已有了

学位

逻辑单元分割条件随机场模型图片摘要可视化电视节目

乒乓球机器人的回球策略及智能控制方法研究

机器人打乒乓球是机器人作业的一种较高形式，也是机器人领域的前沿课题和难题。目前国内外已有多家单位开展相关研究，研制的原型样机基本实现了非旋转球的简单推挡动作。打乒乓

学位

轨迹预测回球速度击球点选择球拍运动控制智能控制乒乓球机器人

基于单目视觉的运动目标参数估计

在机器人应用领域，视觉引导是控制机器人移动作业的关键技术和重要途径。对于打乒乓球机器人而言，视觉系统是其实现自我感知与环境交互，并捕捉环境中感兴趣目标的重要手段。基于

学位

打乒乓球机器人视觉系统运动目标本体姿态参数估计轨迹提取

实体链接关键技术研究

与本文相关的学术论文