基于链接开放数据的实体连接

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaowu7623563
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体连接是数据挖掘领域中一个非常热门的课题,这个任务的目的是将给定文本中提到的实体,也就是一些概念如人物时间地理等,连接到给定的目标知识库中。它和传统的命名实体识别不同,后者只是为了识别出特定类型的实体,并不存在目标知识库,所以并不能提供识别实体的具体信息。一个优秀的实体连接系统或算法可以给文本自动标注,文本结构化等任务提供非常方便的自动化帮助。本文提出了一个基于领域的主题模型的实体连接算法,以Zhishi.me作为目标知识库。本文通过抽取特定的领域,并利用主题模型去捕捉领域相关的文本的语义特征。在此基础上,为了克服领域不全和同义词不全的问题,本文分别提出了基于知识库结构化信息的领域扩充算法和基于共现图的同义词查找算法,提升了领域模型的广度和同义词匹配的准确度。进一步,将这些算法在手工标注的新闻和微博数据集上做了较全面的实验,得出的实验结果效果比较好,可以说明本文方法的有效性。另外,本文还实现了一个演示系统,用户可以向Web服务器提交请求,并得到对应的实体连接结果。
其他文献
研发我国自主的高性能处理器芯片在经济和国家安全方面具有重要意义,龙芯系列处理器的成功研制填补了我国自主高性能通用处理器的空白。龙芯的一个重要应用方向是企业服务器,在
多值逻辑函数结构理论包括完备性理论、函数表示理论以及单向陷门函数,其中函数系完备性之判定问题是一个基本而重要的问题,此问题的解决依赖于定出多值逻辑函数集中的所有准
软件构件技术是当前软件复用研究的焦点,被视为实现复用的关键因素之一。构件技术的基本实现在于创建和利用复用的软件构件来解决应用软件的开发问题。与面向对象编程语言不
移动自组网是一种特殊的无线移动通信网络,其中每个节点的地位平等,不需要中心控制节点。移动自组网中的通信依靠节点之间的相互协作,以多跳的方式完成,因而不依赖于任何固定设施
本文对基于单目视觉的静态手势交互技术进行了研究。文章阐述了基于视觉的手势交互技术的四层体系结构:手势分割、手势表示、手势识别、交互应用,并提出了实现各层功能的技术方
面向方面建模和编织是面向方面软件开发过程的两个重要且基本的课题。目前面向方面建模存在的主要问题是缺乏一种与对象建模紧密关联且支持所有方面特征的方面建模方法,编织技
随着计算机技术、多媒体技术和国际互联网的飞速发展,包括图像在内的各种多媒体数据的数量正在快速增长。在人们拥有了对海量信息共享机会的时候,如何有效地、快速地从大规模的
随着科学技术的飞速发展和市场、经济的全球化,市场竞争形式从企业间的竞争逐渐演进为商业智能之间的竞争。在这种新环境下,EDW(Enterprise Data Warehouse)分析系统作为一种辅
IP电话(Voice over IP,VoIP)是用于互联网上的传输语音的一项技术,随着互联网络的发展和普及,这项技术作为传统的基于公用电话交换网络(PSTN)的通信技术的一种替代品,得到了
随着网络技术的飞速发展和计算机应用的广泛普及,基于网络的多媒体远程教育不断发展,给传统的教育方式带来了深刻的变革。流媒体课件点播系统作为远程教学实现的一部分,实现