论文部分内容阅读
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着tntemet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些探讨,深入研究了主题搜索引擎中数据存储与更新技术。
本文首先介绍了搜索引擎尤其是主题搜索所涉及到的相关技术、相关理论和假设,及其的研究现状和发展前景。并论述其中数据存储与更新技术的基本理论。在此基础上本文对原型系统中的三种数据类型:URL数据,页面数据和索引数据的存储方式及其数据结构分别进行了设计,重点研究了相对比较复杂的索引数据的文件结构。其次,本文对本原型系统所用的数据更新技术进行了探讨,并提出一种新的主题搜索中的网页更新算法。在对以上两项技术进行研究的基础上,本文简要介绍了一种比较理想的农业主题搜索引擎的系统架构,并重点论述其中数据存储的实现方式及更新算法的实验结果。本原型系统主要面向农业方面,保证了对农业信息的全面收录和及时更新,避免了大量的搜索噪音,提高了检索效率。
本文最后总结了所做的研究工作及原型系统的开发经验,并指出了下一步工作的研究方向。