基于查询扩展的主题搜索引擎系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhjie1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决搜索引擎中的语义不匹配问题,本文在总结信息检索中查询扩展技术基础上,将基于词表的查询扩展技术引入到主题搜索引擎中。由于主题搜索引擎处理的是Web页面集,主题词库的人工构建菲常困难,本文采用Web挖掘技术自动构建选定的主题领域的词库并使用构建出来的主题词库进行查询扩展。 要构建主题词库,就需要挖掘出网站中蕴含的层次结构信息。为此本文提出了三种网站层次化方法来完成此项工作。三种方法分别是基于域名分类体系的网站层次化方法、基二网站文件目录体系的网站层次化方法和基于语义块识别和模板提取与过滤技术的网站层次化方法。第三种方法的实现过程要利用前两种方法,该方法能够获得网站中各Web页面的语义块之间的层次结构表示。此外,本文设计了一个专用爬虫自动完成对网站的层次化,然后从网站的层次结构中抽取出主题检索词之间的上下层次关系和共现关系,构建出主题词库,以供查询扩展使用。 主题爬虫模块是整个主题搜索引擎系统的核心。为了提高主题搜索引擎系统的布全率和查准率,本文对现有的主题爬虫模块进行了如下改进:(1)采用元搜索技术来提高种子选择的质量和数量;(2)在进行页面中URL主题相关性判断时,对Shark—Fish算法进行了改进,引入了语义块提取和网页模板过滤等技术来预测URL的主题相关性;(3)在对Web文本进行表示时,采用了带标签权重的向量空间模型;(4)提供了主题搜索系统中的隧道穿越问题的解决方法。 本文使用了开源的Lucene系统作为格式化Web页面数据的索引器和检索器,在设计主题搜索引擎系统时,为用户查询代理模块添加了查询扩展功能。为了检验本文方法的有效性,本文设计了一个主题爬虫效果实验和一个主题搜索引擎系统仿真实验并完成了这两个实验。实验结果表明本文的主题爬虫相对于基于Shark-Fish算法的主题爬虫在性能上获得了一定的提高;基于本文构建词库的查询扩展的主题搜索引擎,在查全率和查准率方面总体上要优于使用其它查询扩展技术或不使用查询扩展技术的主题搜索引擎。 总体来说,本文所设计的系统基本达到了预期的设计目标。
其他文献
随着计算机浮点运算能力和图形加速能力的飞速提升,应用实践对三维模型的真实感和细腻度的要求越来越高,导致了三维几何模型的拓扑信息和几何信息急剧增长,从而为模型数据的传输
本文以徐工职院辅助教学系统(XGYFJXT)的研究与设计为背景,以CSCW理论和工作流技术、群件技术作为指导,用SQL Server建立系统数据库,以JAVA语言进行系统的设计,实现了支持多
由于信息技术的发展和激烈的竞争,独立、零散的办公自动化系统和计算机应用已不能满足人们的需要,而综合、集成化的解决方案日益成为企业所需。作为一种对常规性事物进行管理、
本文通过对时间规划中R_时刻表这个主题的深入探讨,以时间关系矩阵为基础,给出了R_时刻表算法的详细步骤,并设计了一个通用的时间规划系统,将时间规划应用于大学课程和田径运动会
学位
随着Internet的快速普及,Internet已经在社会政治、经济、文化、军事等领域中发挥着越来越大的作用。与此同时,在全球范围内,对计算机及网络基础设施的攻击行为也已经成为一个越
分布式并行文件系统已经成为高性能应用领域不可缺少的组成部分,在实际应用环境中,面向的往往是大规模的客户端,在大量客户端IO密集型应用并发地访问服务器时,数据服务器的IO请求
随着国内电信垄断格局的打破,各电信运营商间的竞争也越来越激烈。为了在竞争中争得先机,企业将越来越需要有一套迅速灵敏、功能强大的系统,有针对性地制定政策,适时拿出各种促销
密钥生成是密钥管理的研究内容,密钥安全是一切安全密码系统的基础,在执行密码协议前必须先生成密钥。为了进行分布式计算等操作,我们需要提高密钥生成的效率,基于椭圆曲线密码系
移动自组网络,又称为移动Ad Hoc网络,因其无需预设网络设施、可快速组网、抗毁性强的特性,使其成为数字战场通信的首选。然而由于移动自组网的固有特性,使得这种网络更容易遭到安