论文部分内容阅读
随着Internet的高速发展,Web已经形成一个规模庞大种类繁多的信息资源库。实体抽取是从Web海量数据中快速准确地提取有效信息,目前成为国内外信息处理、问答系统和实体检索研究的热点和重点,同时也成为历届国际著名评测会议TREC主要研究目标之一。TREC Entity2011的相关实体查找(REF)子任务要解决的核心问题,即通过给出源实体及其主页、目标实体类型以及源实体和目标实体间的自然语言关系描述,找出源实体的所有目标实体。本文建立了一个包括文档检索、实体名抽取、实体名筛选、实体名排序以及实体主页和支持文档查找等多阶段的相关实体查找系统模型框架,采用自然语言处理技术和命名实体识别方法,从海量文本数据中抽取相关实体及查找主页和支持文档来满足输入查询,从而高效地完成TREC评测任务并取得国际排名第二的成绩。本文主要包含了以下几个研究方面:1.在实体抽取阶段提出了一个计算实体名排序得分的算法。该方法综合考虑了实体TF-IDF权重、网页排序、源实体和目标实体之间的置信度以及多关键字等因素,通过这些因素的线性加权组合成为计算实体名得分的标准公式,并将相关候选实体得分大小作为按序排列实体名的依据,TREC Entity2011相关实体查找任务测试结果表明,该方法具有良好的效果,在实验结果中MAP指标达到了0.1266。2.在主页查找阶段提出了一种基于权威页面和页面特征的主页识别算法。该方法通过在ClueWeb09API和Google中输入目标实体名检索出前10个页面,最后根据其网页URL链接和页面内容等特征权重加权计算出主页得分,选取得分最高者为主页。3.基于命名实体识别方法和实体主页以及支持文档查找技术设计并实现了一个实体抽取和主页及支持页查找系统模型,该系统在TRECEntity2011相关实体查找(REF)任务中取得国际排名第二成绩。