基于实体属性的排序SVM模型的实体链接方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:drally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络技术高度繁荣的Web2.0时代,网络信息呈现出爆炸性增长,互联网已经逐步发展成为一个全球巨大的共享信息仓库。如何从海量的信息库中快速且准确的获取到用户所需的信息,是信息时代中一个亟待解决的问题。随着wiki技术的不断革新,以wikipedia为代表的知识库大量涌现,此类知识库作为一种开放的内容知识平台,加快了知识的共享和交流,为人们的生活提供了方便。因为wikipedia具有自由编辑的特点,大众的参与使得其内容不断扩充,知识库不断得到积累和完善,wikipedia逐渐成为信息检索的重要渠道之一。但因其信息不规范,表现形式复杂多变,数据量巨大,因而信息冲突、歧义的现象较为普遍,成为面向知识库的信息检索、抽取、挖掘等任务中首要解决的问题。本课题的研究内容----实体链接,很大程度地解决了知识库中的实体歧义问题,对面向知识库的信息检索、抽取以及知识库的扩展具有重要意义。在实体链接任务中,存在实体表现形式多样、指代推理关系复杂等难点,本文在分析已有工作的基础上,提出了基于属性信息和排序SVM模型的实体链接的研究方法。  本文首先依据背景文档信息对查询词进行扩展,以获得更多有关查询词的信息,便于目标实体的准确定位:之后利用信息检索技术生成候选实体集。对于本课题的核心模块----候选集合排序模块,本文提出了基于实体属性信息和排序SVM模型对候选集合进行两轮排序的算法。首先提取了目标实体的部分属性信息,利用属性的刻画和限定作用进行候选集合的首轮排序工作,然后结合排序SVM模型完成第二轮排序,从而确定最佳匹配实体。实验结果表明,与无监督的相似度计算方法及有监督的未利用属性信息的方法相比,本文提出的方法在效果上具有明显提升,证明了本文方法的有效性。
其他文献
随着计算机网络的不断发展,网络安全也面临非常大的挑战。网络上的主机和服务器面临不同目的的攻击的威胁。在这些攻击中,分布式拒绝服务攻击是一种常见的而且十分有效的攻击方
随着网络技术的飞速发展,盗版视频日益猖獗,数字版权保护变得至关重要。作为加密技术和数字水印的替代方案,基于内容的拷贝检测(CBCD)得到了越来越多的关注。然而,拷贝检测并
视频目标跟踪是计算机视觉研究的重要方向之一,在智能交通系统、人机交互、机器人导航和智能视频检索等领域有着广泛的应用。然而,由于复杂背景、遮挡、光照变化等诸多因素的影
随着大数据时代的到来,来自互联网及生活中的海量多源异构数据正以前所未有的速度产生并积累,这些数据之间存在着紧密的关联性,如何对其进行有效地分析和挖掘是目前工业界和学术
随着遥感技术和航天事业的不断发展,遥感图像处理的应用需求越来越大,技术要求越来越高,而图像配准作为其中一项重要的技术,同样存在高需求和高技术要求的问题。  图像配准是指
为解决大量机械总加工的单件和小批量生产的自动化难题,上世纪50年代出现了数控机床。它综合应用了电子、计算机、检测、自动控制和机床结构设计等各个技术领域的众多成就。数
合成孔径雷达干涉测量技术(Synthetic Aperture Radar Interferometry,简称InSAR)是新近发展起来的空间遥感技术,它是传统的SAR遥感技术与射电天文干涉技术相结合的产物。通过对
随着虚拟机技术的逐渐成熟和广泛应用,虚拟化平台上的安全问题也逐渐显现。作为最常见的资源保护手段之一,访问控制机制在虚拟化平台上的实现已经成为一种必要的手段。但现有的
随着生物信息学的蓬勃发展和计算机技术的不断进步,生物分子的三维结构显示对于生物信息的分析起着越来越重要的作用。生物分子结构可视化的目的在于借助计算机图形学及可视化
日地空间系统科学是研究太阳、太阳到地球之间的行星际空间和地球空间中自然现象及其规律的学科,其数据具有体量巨大、种类繁多、结构复杂的特征,不同概念、不同事件之间的相