论文部分内容阅读
随着互联网的迅速发展,其所承载的信息量呈爆炸式增长,因此,如何有效地利用这些丰富的信息资源逐渐成为研究人员关注的课题。搜索引擎在当今互联网领域起着十分重要的作用,它是获取知识信息的主要工具。同时,随着用户需求的进一步扩大,获取更加准确、更加深层的专业信息,成为搜索引擎的一项新要求。针对目前新的需求变化,本文提出了一个基于webharvet的中文新闻搜索引擎。首先详细介绍了搜索引擎的系统结构,然后从网络爬虫、索引引擎、Web服务器以及其中涉及到的一些算法进行详细的说明。并在此基础上,开发了一个基于webharvet的中文新闻搜索引擎。简而言之,新闻搜索引擎是按照初始的URL列表到指定的Web页面中进行页面解析,并把解析到的新闻创建建索引后存入到数据库.用户在客户端访问web服务器上的索引并取出数据库中相应的新闻信息。除了常见的搜索引擎相关组件之外,系统设计了一个并发网络爬虫,在考虑到性能需求的同时兼顾了新闻数据抓取的精确度,并在此基础上添加了过滤,文本去重,持久化等一系列组件。在构建爬虫相关组件中采用了许多成熟的设计模式来进行各个模块的整合和功能优化。而索引部分采用了Lunece构建索引,通过IKanalyzer进行中文分词和词法分析,并针对不断更新的数据进行索引的合并和优化。另外,结合用户需求,添加了用户评分和权限等相关操作,主要目的是为开发一个面向用户的体验良好的中文新闻搜索引擎。在介绍搜索引擎的章节中,详细地描述了相关技术点,同时列出了构建该系统的相关代码和逻辑图表。