基于增量嵌入的实体链接关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:qsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接是将自然语言中代表实体的字符串与知识库中相应实体对应起来的工作。在网络数据日渐丰富,日常生活与互联网联系日益紧密的今天,实体链接是理解和处理互联网信息的重要任务。实体链接任务的困难之处在于,同一实体可能有多种出现形式,同一指称所代表的实体也可能有多个。在现有的研究中,实体链接系统多使用词形、名词共现等表层特征,准确率已经到达瓶颈。使用深度学习理解文本的深层特征有望突破这一瓶颈。现有的实体-单词共同训练嵌入表达的方法一次训练数据庞大,无法灵活地扩展实体集合,生成的实体向量表示与单词向量表示紧耦合,与其他嵌入表示研究方法脱节。本文提出实体增量嵌入方法,在已有的词向量和语言模型的基础上扩展模型以训练实体的嵌入表示。特别设计了扩展模型的初始值设置算法和训练方法,使得模型收敛成为可能。针对实体链接任务设计了基于实体嵌入的候选排序方法和组合模型候选排序方法。在TAC2010测试集上的实验结果表明,实体增量嵌入方法可行有效,得到了高质量的实体嵌入表示,并且能满足小批量、多次增量嵌入的要求。基于实体嵌入的候选排序方法和组合模型候选排序方法准确率分别达到80%和82.8%,均接近同类排序方法的先进水平。
其他文献
随着机器人在不同行业的广泛应用,机器人在人类工作和生活中扮演着越来越重的角色。在市场需求和政策鼓励的前提下,机器人市场的发展十分迅猛,单个工业机器人不能完成或完成
H.264标准和AVS标准与以往视频压缩标准相比,在编码效率与编码精度上具有明显优势,并且已经成功应用在很多领域。通过软件方式实现H.264算法和AVS算法存在占用资源大以及实现
过渡时期及其总路线是老话题,但存有争议。梳理考据有之,维护颂扬有之,质疑反思亦有之。争论面前,惟努力理清线索,方能一探究竟。任何事件皆非孤立存在,必有因果。对应到过渡
会议
传统的信号采样建立在Shannon-Nyquist采样定律的基础之上,要求采样频率必须大于信号最高频率的2倍才能准确的重构信号。但是随着身边传感器的日益增多,人们对信号采样的需求
进入21世纪以来,中国快速发展,习近平总书记在党的十九大中强调要发展素质教育,落实立德树人的根本任务,新高考的实施,高校录取方式的多元化,对于人才的判定已不是唯分数论,
高校高等教育资源是高校发展的一个重要条件,对于高校教育资源的购置市场存在诸多问题的现象,目前我国高校资源统一采用招投标方式公开采购。招投标是目前市场上公认的最具有
语用学和认知语言学都是研究语言的使用。不过,认知语言学是强调、说明语言和其他认知能力之间的相互关系;语用学则研究是符号与解释者之间的关系。此文先简要介绍语用学和认
跳频通信(Frequency-Hopping Spread Spectrum,FHSS)是扩频通信技术之一,利用一直改变的频点来躲开周围环境对其产生的干扰,因此其能够很好地对抗频点污染以及减少信号的衰落
藏传佛教是藏学研究和中国传统文化的一部分,具有一定的研究价值。随着藏传佛教在世界的传播,中外藏传佛教文献的翻译也愈加重要。本文节选了《藏传佛教》(Tibetan Buddhism)一书中的第二章和第三章为翻译对象,以汉斯·弗米尔目的论为指导,多角度探究藏传佛教作品的翻译问题,具体包括词汇、句子和语篇的翻译策略和方法,以强调目的论在指导藏传佛教作品翻译中的可行性,为探究藏传佛教作品的翻译提供更多的可
能耗问题一直是计算机领域重要的研究课题之一,随着摩尔定律的逐渐失效,降低能耗成为半导体行业迫在眉睫的问题。早期的能耗研究都主要通过调整电路架构或者是优化程序的编译