论文部分内容阅读
为了解决搜索引擎中的语义不匹配问题,本文在总结信息检索中查询扩展技术基础上,将基于词表的查询扩展技术引入到主题搜索引擎中。由于主题搜索引擎处理的是Web页面集,主题词库的人工构建菲常困难,本文采用Web挖掘技术自动构建选定的主题领域的词库并使用构建出来的主题词库进行查询扩展。
要构建主题词库,就需要挖掘出网站中蕴含的层次结构信息。为此本文提出了三种网站层次化方法来完成此项工作。三种方法分别是基于域名分类体系的网站层次化方法、基二网站文件目录体系的网站层次化方法和基于语义块识别和模板提取与过滤技术的网站层次化方法。第三种方法的实现过程要利用前两种方法,该方法能够获得网站中各Web页面的语义块之间的层次结构表示。此外,本文设计了一个专用爬虫自动完成对网站的层次化,然后从网站的层次结构中抽取出主题检索词之间的上下层次关系和共现关系,构建出主题词库,以供查询扩展使用。
主题爬虫模块是整个主题搜索引擎系统的核心。为了提高主题搜索引擎系统的布全率和查准率,本文对现有的主题爬虫模块进行了如下改进:(1)采用元搜索技术来提高种子选择的质量和数量;(2)在进行页面中URL主题相关性判断时,对Shark—Fish算法进行了改进,引入了语义块提取和网页模板过滤等技术来预测URL的主题相关性;(3)在对Web文本进行表示时,采用了带标签权重的向量空间模型;(4)提供了主题搜索系统中的隧道穿越问题的解决方法。
本文使用了开源的Lucene系统作为格式化Web页面数据的索引器和检索器,在设计主题搜索引擎系统时,为用户查询代理模块添加了查询扩展功能。为了检验本文方法的有效性,本文设计了一个主题爬虫效果实验和一个主题搜索引擎系统仿真实验并完成了这两个实验。实验结果表明本文的主题爬虫相对于基于Shark-Fish算法的主题爬虫在性能上获得了一定的提高;基于本文构建词库的查询扩展的主题搜索引擎,在查全率和查准率方面总体上要优于使用其它查询扩展技术或不使用查询扩展技术的主题搜索引擎。
总体来说,本文所设计的系统基本达到了预期的设计目标。