论文部分内容阅读
本文针对目前面向农业信息的搜索引擎少,农业信息特定的搜索引擎服务还不健全,已有的农业信息搜索引擎建立的资源索引库针对性不强,Web页面排序方法单一等问题,根据农业信息多、广、散的特点,结合面向农业信息搜索引擎的不足之处,对搜索引擎的排序算法和相关技术进行了研究。
本文根据对深度优先和广度优先两种搜索算法优缺点的比较和研究,提出了在面向农业领域的搜索引擎中使用广度优先和深度优先相结合的搜索算法。首先,使用广度优先搜索算法获取了相关度高的主节点,排除了大量相关度低的节点,高度过滤和优化了信息来源。接着,对每个主节点使用深度优先算法进行深度搜索。
本文着重研究了Web页面相关度排序算法和Web页面整体排序算法。综合考虑了用户需求和农业信息的特点,提出了将Web页面的相关度和PageRank值采用加权求和的方法相结合。经过对比研究和反复取点测试得出,相关度的权值范围在0.7-0.8,PangeRank权值范围在0.3-0.2时,可以得到满意的排序结果。
本文还研究了与Web页面排序算法紧密相关的Web页面索引技术和检索技术,并就如何对海量信息进行有效的组织和压缩,以减少存储空间,提高检索效率进行了深入探讨。
基于以上的研究本文实现了一个农业信息搜索引擎的原型系统,在原型系统之上进行了农业信息搜索测试,并对排序结果进行了分析比较,得到了较好的预期结果。进一步验证了本文研究的排序算法,应用在农业信息搜索引擎中是合理和优化的。