论文部分内容阅读
随着信息时代的来临和网络资源的迅猛发展,互联网已成为教育工作者和有学习需求的人获取教育信息的重要途径,使其能够获取多样便捷丰富的教育资源,满足学习或工作需求。随着数据量的增大,在使用传统搜索引擎进行检索时,由于其较广的覆盖面,检索结果往往伴随着一些对用户来说无用的信息。而垂直搜索引擎面向某一个具体领域,有特定的用户群,能够提供更加精准的信息检索服务。如何使学习者能够更有效的在互联网资源中找到自己想要的教育资源,是本文所要解决的主要问题。本文以教育资源的检索需求为背景,描述了课题相关来源和设计目标,介绍了通用搜索引擎和垂直搜索引擎并进行了比较,深入研究了垂直搜索引擎的系统架构、工作原理、关键技术、工作流程等相关理论和技术,在此基础上对系统进行了需求分析,包括系统的背景目标、主题范围和前后台业务需求,并基于需求进行了系统总体设计,设计了系统前后台工作流程和框架,划分了系统模块并对各模块进行了详细的设计。通过扩展运用Heritix、HTMLParser和Lucene,本文实现并整合了一个面向教育资源的垂直搜索引擎,其主要内容有:1)首先,利用Heritix实现网页数据的采集,并对其进行扩展和定制,在对网页进行基于链接的主题过滤后下载到本地形成网页库;2)其次,利用正则表达式和HTMLParser抽取网页信息,选取样本站点网页形成用于描述主题的主题词库,并采用空间向量模型对后续页面进行基于内容的主题过滤,形成文本库;3)接下来,利用Lucene进行索引的建立和查询,优化索引建立过程,提高索引速度,优化检索结果的显示顺序,提高标题的权重和与主题相关度更高文档的权重,利用文本库形成索引库;4)然后,对站内数据库资源进行索引的建立、优化和查询,维护数据库与索引的一致性,实现数据库资源的全文检索。5)最后,对各个模块和系统进行了测试,系统功能和性能满足垂直搜索引擎的需求,为所属课题提供教育资源的检索服务。