基于Lucene的主题搜索引擎模板的设计与实现

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:yuantengfei1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,在Web信息资源极大丰富的同时,对Web信息搜索工具的研究也提出了更高的要求。由于目前Web的规模和它的动态性,通用搜索引擎仅能爬行和索引Web的一部分。因此,通用搜索引擎已经很难再为用户提供一个全面的并且更新及时的信息搜索服务。通用搜索引擎的局限性来源于它试图索引全部Web并且试图服务于涉及所有主题的查询请求。而主题搜索引擎只覆盖与某一主题相关的Web区域,这样,它爬行的可以更深,爬行的周期可以更短,因此可以满足用户对获取信息资源的快速、准确和全面的要求。为了有效定位与主题高度相关的网页,主题搜索引擎利用丰富的上下文(兴趣剖析文件和网页内容)和有效的爬行策略来导航Web上的信息搜索。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。作者广泛阅读和研究了国际国内最近几年发表的有关“主题搜索引擎”的论文及资料,对目前主题搜索引擎的研究及应用状况有了一定程度的认识,同时学习和研究了全文搜索引擎工具包Lucene。在此基础上,本文确立了两个目的,一个目的是对有关文献中给出的重要而富有创新的研究成果做一个比较详细的介绍,另一个重要的目的就是设计和实现一个基于Lucene的主题搜索引擎模板,从而借助这个模板可以验证我们自己或其他研究人员在主题搜索方面的一些想法及这些想法的应用价值。本文设计的基于Lucene的主题搜索引擎模板不同于将主题限定在某一领域的主题搜索引擎,通过用户引导模块,本系统可以做到面向不同主题需求的用户。也就是说,不同主题需求的用户通过用户引导模块将自己关注的主题写入系统,接下来系统就会根据已经写入的主题进行主题爬行了。本文还提出了自己的文本分类方法和爬行策略,并在此基础上,完成了主题爬行程序。
其他文献
伴随着3G通信的迅猛发展和物联网技术的不断创新,移动定位业务LBS(Location Based Service)已经成为移动业务新的重要增长点。而在LBS系统当中,无线定位作为其他增值业务的基
1994年提出的Turbo乘积码(TPC)因其优异的性能引起了人们的广泛关注。作为一种高效的信道编码技术,TPC在码率、译码性能和硬件复杂度方面拥有很大的灵活性,具有良好的应用前景
本文在总结前人研究经验的基础上,对传感器理论及其在温度测量方面的应用进行了深入研究。为了解决现有热电偶温度传感器中存在的低精度、低灵敏度、信号提取困难、高成本、通
目前,煤矿开采工作主要是由人工完成,有一定的危险性,各种人为失误或自然环境所造成的矿井重大灾害及伤亡事故时有发生,对矿井下工作人员的人身安全造成了极大的威胁。此外,
正交频分复用(OFDM)技术具有频谱利用率高、数据传输速率高和抗多径衰落能力强等优点,因此成为下一代移动通信的核心技术。同样IEEE 802.16e协议的物理层也采用了该技术。由
小世界现象是大量的网络在自然和技术上所呈现的一个特征,小世界模型中有两个特征值:特征路径长度和聚合系数。小世界理论的发展很快,已经在许多领域得到应用,目前研究表明移
桥梁检测是保障桥梁安全运营的一项重要措施。然而多年来,传统的桥梁检测因其固有的滞后性和低效性,造成桥梁运营成本的提高和资源配置的不合理,不能及时发现桥梁结构的许多
合成孔径雷达(SAR)是一种高分辨率成像雷达,具有全天时、全天候、远距离成像的能力。随着SAR技术的不断发展,其在军事和民用领域的应用也愈加广泛,基于SAR图像的目标定位与导
加权类分数傅里叶变换(Weighted-type Fractional Fourier Transform, WFRFT)是一种有别于经典类分数傅里叶变换(Classical Fractional Fourier Transform, CFRFT)的新的定义
随着嵌入式系统和数据通信技术的发展,数据通信系统的实时性和可靠性要求也越来越高,因此在嵌入式数据通信系统中差错控制技术的性能显得至关重要。本文以基于VxWorks的串口