论文部分内容阅读
搜索引擎给互联网带来了巨大的变化,使得人们能够在浩如烟海的知识世界中,获得自己想要的信息。搜索引擎技术也已经成为信息检索的热门技术。RSS信息聚合技术在新闻和博客领域迅速得到推广,使得互联网信息变得结构化起来。人们对于搜索引擎的要求也越来越高,在实时性方面传统搜索引擎已经不能满足人们的需求。RSS搜索引擎呼之欲出,各大知名企业都在暗中角力。
本文提出以RSS信息为数据来源,在传统搜索引擎的基础上,对进行RSS信息进行获取和深度挖掘,构建一个实时性较强的RSS搜索引擎。该研究是在开源项目基础上进行的,针对中文信息检索对该项目进行了改进。改进了中文分词和关键字高亮算法,编写了全新的HTML分析器,实现了分摘要和全文进行检索,按照相关度和时间两种方式对结果进行排序,并增加了网页快照功能。提高了用户体验,取得了不错的效果。
本文对基于RSS的搜索引擎进行了初步研究。在实际的应用中,尤其是在大规模应用中,好有许多亟待解决的问题有待进一步的研究。本文所积累的一些经验和资源,也可以作为进一步研究的基础。