基于知识库的实体链接

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:wbs304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的飞速发展给人们生活带来了便利,与此同时,引发的信息爆炸让人们很难精确的定位所求的信息。由于自然语言的歧义性,对实体的语义进行消歧成了搜索的关键问题,而针对语义消歧的实体链接任务应运而生。实体链接任务是指抽取文档集中指定类型的命名实体,包括人名、地名、组织机构名,并把其链接到KB(Knowledge Base)知识库的过程。本文针对实体链接的问题进行研究,主要内容如下:1.针对查询词的扩展,提出了一种基于词向量(Word Embedding)的扩展方法。该方法利用CBOW模型去训练词的词向量,然后距离Query相近的词作为扩展词,能够弥补基于规则的扩展方法的不足,提高候选实体的召回率。2.提出了基于词向量的排序模型,用以实现实体链接。在特征抽取阶段,不仅加入了文档之间的LDA主题相似性特征,而且加入了基于词向量的文本相似性特征。对实体的上下文进行向量化过程中,不再以高频词作为向量的维度,而是以基于Word Embedding的相关词作为向量维度,由此得到文档的语义相似性特征。最后利用Learning to Rank模型把Query链接到相应的候选实体。3.提出了构建基于词向量的语义网模型,用以实现实体链接。文档中所有实体以及候选实体作为节点构建语义网,节点与节点之间边的权重表示词与词之间的语义关系,而本文利用词的词向量相似度来衡量节点之间的语义关系,与其他方法相比,达到较好的效果。本文在2014年英文实体链接Entity Linking任务数据集上进行实验,结果表明,基于排序模型的实体链接方法,使F1值达到0.71,基于词向量的语义网模型的实体链接方法,使F1值达到0.739,具有较好的效果。本实验表明两种思路构建的实体链接方法都能较好的解决实体链接问题,且具有普适性。
其他文献
随着近年通信技术和互联网技术的不断发展,数据流的价值越来越受到重视,其中隐含着很多有价值且有时效性的信息,而获取这种信息的手段就是数据挖掘技术。关联规则挖掘技术作
民主是政治生活永恒的追求,经过不断的实践和检验,我国已经形成了具有中国特色社会主义的协商民主理论。党的十八大以来,习近平总书记高度重视协商民主的建设和发展,鼓励大家从协商民主的角度去研究我国政治建设的发展。我国的广大农村地区,村民自治是我国农村基层民主建设的核心问题。随着我国经济社会的不断发展,社会利益主体日益多元化,为了满足个人的利益需求,他们往往会在基层民主建设中突出表现自身的利益,不利于公共
目前虚拟现实是受关注最多的高新技术之一,而分布式仿真一直是虚拟现实领域的研究热点。随着虚拟现实系统的规模不断扩大和逼真度要求逐步提高,将分布式仿真技术、视景仿真技
近年来互联网发展速度一日千里,变化日新月异。电脑、手机的迅速普及和功能的强劲使得人们在足不出户的情况下就能通过互联网了解国内外资讯、查看新闻、关注娱乐时尚、获取
根据计算,到2020年中国国际移动通信频谱需求总量将达到1350~1810 MHz。截止到2014年底,中国为国际移动通信系统规划的频率总计达到687 MHz,还存在至少663 MHz的需求缺口。因
近年来外国投资者对中国的并购投资项目数量增长,并购金额逐年增加,我国已经成为世界主要国家投资的目标市场。但是针对大量的外资并购项目,我国没有专门的外资并购国家安全
集成学习是机器学习领域中首要热门方向。它是通过某种方式组合多个学习器解决同一问题并且能够显著提升整个学习系统的泛化性能。集成学习由最初的萌芽经过众多相关领域的研
在陆地无线通信系统中,由于各种障碍物、散射体以及传播路径上其他发射源的存在,传输信号可能会发生比较严重的畸变。受多径效应、高斯白噪声、同信道干扰及其他因素的影响,
随着无线通信的发展,协作通信扮演着越来越重要的角色,中继技术在协作通信研究中的地位更是举足轻重,为了克服中继技术中的同步问题,半双工中继就变得更受欢迎。最近提出的互
当今城市发展密集化、高层化,城市轨道的发展因其环保、效率高快速进入人们的生活。地铁施工环境比较复杂、技术要求越来越高,隧道施工过程是十分重要的。在减弱盾构机对接触土体的扰动方面、控制地表沉降这两个两方面,在工程的应用有很实际的参考作用。本文以合肥地铁一号线三期工程物-天区间为研究对象,研究隧道盾构施工的整个过程对地表沉降和预测变化趋势的影响。通过对数据的处理、Peck公式的推导和使用的FLAC 3