论文部分内容阅读
随着互联网的迅速发展,互联网中的数据呈爆炸式的增长,因此高效的信息检索技术对于帮助用户获取有用的信息具有重要的意义。目前搜索引擎技术已经取得了很大的进步,能够基本满足用户对信息检索的需求。但是目前搜索引擎技术大部分是基于页面层的搜索,该技术存在固有的缺陷,查询结果是以网页链接的形式返回给用户,用户需要自己寻找信息所在的网页。但是在很多情况下,用户搜索的目标是实体信息,如论文、地名、商品信息等。本文针对实体层的搜索技术进行了研究,在已有的研究成果的基础上,提出了一些新的解决方法。本文的主要工作包括:1、提出了一种基于链接模版树的垂直爬虫技术,通过对目标网站链接进行分析,使用链接模版来归纳需要下载的链接,构建正则链接树来导航爬虫的下载路径,解决了网页中存在的隧道问题。实验中,在开源爬虫Nutch的基础上,以插件的形式实现本文提出的爬虫算法,经过比较,本文提出的方法能够取得较好的召回率和效率。2、提出了一种基于DOM树和XSL的实体信息抽取方法。首先对下载的Web页面进行预处理,通过训练数据提取出网页中实体信息所在的路径规则,然后通过XSL将Web页面中的实体信息转换为XML文件。也对页面中出现多实体提取的情况,提出了相应的解决方案。在单实体提取方法的基础上,先提取页面中的最大数据子树,然后在最大数据子树中提取多实体规则,来实现多实体信息的提取。实验结果表明,本文提出的实体信息提取方法能够有效地提取实体信息。3、提出了适用于实体的索引结构,并对Lucene的评分算法进行了改进。通过对开源全文索引开发包Lucene架构和代码的分析,在文档索引结构的基础上,提出了适用于实体信息的索引结构。对于搜索结果的排序方面,本文对Lucene评分机制进行了改进:计算出实体数据中词语的IDF值,建立实体数据的IDF值数据库;查询过程中,通过词语的IDF值来设定查询语句中不同词语的重要程度,再计算每个实体获得的评分,最后排序输出。通过实验表明,该方法能够获得更好的返回结果。