论文部分内容阅读
随着人们对搜索的效率和准确性的要求不断提高,单一的搜索引擎已经不能满足很多用户的需要,有时为了搜索一个内容而要查找几个独立的搜索引擎,为了解决这个问题,元搜索引擎出现了。但是现在的元搜索引擎往往具有通用性,没有考虑到用户的偏好,因而很难满足不同背景、不同目的用户需求。本文研究的“基于用户兴趣的模型”正是为了让用户充分地使用Internet上的信息资源,具有理论和实用价值。首先,本文对个性化信息检索和元搜索引擎技术进行了概述,突出了课题研究的可行性;在分析了现有元搜索引擎模型的优缺点之后,设计了一个基于用户兴趣的个性化元搜索引擎模型,详细介绍了用户浏览行为收集模块的实现技术和实现过程、用户兴趣模型的建立和更新方法。其次,在详细讨论了Beeferman提出的日志聚类算法及Chan对其改进的算法的优点、缺点后,提出了一个基于用户网页兴趣度的改进算法。该算法能进一步减小噪声数据的影响,并通过模拟实验对这三种不同的算法进行了对比分析。最后,对基于用户兴趣的成员搜索引擎的选择和结果排序算法进行了研究,即在现有的算法中引入了网页兴趣度值,使本文的系统所得出的搜索结果更能体现基于用户兴趣的优势,并且进行了实验分析。本文对元搜索引擎的功能作了有力的增强,首先由浏览行为收集模块收集用户浏览行为并计算兴趣值,然后把兴趣值大于某个阀值的网页的浏览日志存入日志库,然后建立或更新兴趣模型得到用户兴趣模型,并且存入兴趣库中,并且对成员搜索引擎的选择和结果排序算法进行了改进,可以提高搜索效率和节省用户的时间。