相关实体抽取和主页及支持文档查找研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:chen2591272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,Web已经形成一个规模庞大种类繁多的信息资源库。实体抽取是从Web海量数据中快速准确地提取有效信息,目前成为国内外信息处理、问答系统和实体检索研究的热点和重点,同时也成为历届国际著名评测会议TREC主要研究目标之一。TREC Entity2011的相关实体查找(REF)子任务要解决的核心问题,即通过给出源实体及其主页、目标实体类型以及源实体和目标实体间的自然语言关系描述,找出源实体的所有目标实体。本文建立了一个包括文档检索、实体名抽取、实体名筛选、实体名排序以及实体主页和支持文档查找等多阶段的相关实体查找系统模型框架,采用自然语言处理技术和命名实体识别方法,从海量文本数据中抽取相关实体及查找主页和支持文档来满足输入查询,从而高效地完成TREC评测任务并取得国际排名第二的成绩。本文主要包含了以下几个研究方面:1.在实体抽取阶段提出了一个计算实体名排序得分的算法。该方法综合考虑了实体TF-IDF权重、网页排序、源实体和目标实体之间的置信度以及多关键字等因素,通过这些因素的线性加权组合成为计算实体名得分的标准公式,并将相关候选实体得分大小作为按序排列实体名的依据,TREC Entity2011相关实体查找任务测试结果表明,该方法具有良好的效果,在实验结果中MAP指标达到了0.1266。2.在主页查找阶段提出了一种基于权威页面和页面特征的主页识别算法。该方法通过在ClueWeb09API和Google中输入目标实体名检索出前10个页面,最后根据其网页URL链接和页面内容等特征权重加权计算出主页得分,选取得分最高者为主页。3.基于命名实体识别方法和实体主页以及支持文档查找技术设计并实现了一个实体抽取和主页及支持页查找系统模型,该系统在TRECEntity2011相关实体查找(REF)任务中取得国际排名第二成绩。
其他文献
在我国,中压配电网大多采用的是中性点非有效接地的方式也就是小电流接地方式。由于接地电流微弱,加上中压配电网接线复杂,分支众多,其单相接地故障类型的辨识成为一直以来尚未得到很好解决的难题。在小电流接地运行方式下发生单相接地故障时,故障相与非故障相的对地电压分别降低和升高导致系统相电压变得不对称,但线电压依然对称,所以系统虽存在故障但是仍能运行1~2小时,不过如果此故障持续长时间,就可能会引起PT爆炸
Cache是缓解处理器和内存速度差异的一种非常有效的方法,但是随着工艺技术及处理器技术的飞速发展,传统的以SRAM为材料的Cache受到了面积、功耗等的限制。STT-RAM是一种新型
近年来即时通信技术的飞速发展使即时通信工具的应用更为广泛,给个人的网络生活、企业的日常办公都带来了极大的便利性与高效性。XMPP(eXtensible Messaging and Presence Pr
云计算作为一种新的计算模式,其采用了“pay-as-you-go”的管理模式,面向网络用户随时、随地的提供按需的服务器资源,而用户则不必关心硬件维护和网络管理工作。云服务模式给VoD
光学信息处理具有容量大、速度快、并行性等优点,秘密信息可以被隐藏在相位或空间频率等多种参数中,因此利用光学信息处理对数字图像进行加密是一种行之有效的方法。Gyrator变
现代动态语言运行于专门的虚拟机软件上,虚拟机用来管理内存,实现高级特性。每种语言需要针对不同平台提供其虚拟机实现。这些虚拟机由于效率原因通常由低层级的语言来编写。这
在“厂网分开、竞价上网”的大背景下,电厂竞价上网数据直接关系发电调度计划的制定,进而影响电厂的经济利益,绝对不能泄露给竞争对手。另外,发电调度计划不仅用于指导各个电厂进
随着互联网的飞速发展,微博作为一种社交媒体已经获得了社会各界的广泛关注。但是如何从海量、不规则的微博数据中高效地提取出有效的信息来进行话题发现,仍然是目前亟待解决
随着信息和网络技术的高速发展,配电系统各环节之间、配电各企业之间会产生通信隔离,不能交换信息资源。这就迫切需要快速处理配电网异构数据交换问题,尤其是最突出的语义异构问题。本文采用SOA技术、Web服务和本体技术,提出了基于SOA的配电网异构数据交换层模型,消除语义异构问题。本文首先叙述了国内外研究动态,对数据交换技术进行了简要地介绍,并论述了配电网异构数据的特点,接着对SOA的概念和SOA的核心技
双目立体视觉三维重构技术模仿人类的视觉系统,是通过两个摄像机在不同位置同时拍摄同一场景的二维图像来获取该场景的三维信息。它的研究热点主要有两个:摄像机标定和立体匹