论文部分内容阅读
随着Internet的强势发展,网络上的信息量成爆炸趋势增长,如何使人们快速、准确的在浩瀚的资源中发现自己需要的信息成为关键。目前的搜索引擎虽然在一定程度上缓解了这一矛盾,但仍然存在着许多问题,主要体现在以下几个方面:(1)关键词的同义和歧义现象,造成了用户的查询表示与实际的检索意图往往存在较大的差异;(2)个性化内容少,结果雷同,大部分搜索引擎仅仅采用基于一般意图(one-size-fit-all)的模式;(3)大部分用户进行信息检索时,一般仅仅使用1~2个关键词,造成无法准确检索出用户需要的内容,这就是所谓的“短查询”问题。基于兴趣主题的查询扩展技术的产生正是为了满足这一需求,它能为不同兴趣和背景的用户提供满足其个性化需要的搜索结果。
用户兴趣模型能否准确的反应用户的兴趣决定了系统提供的个性化服务质量,基于这个认识,本文围绕着用户兴趣模型的研究逐步展开。
首先对当前主要的Web挖掘技术和用户兴趣建模技术进行了分析,建立了描述用户的浏览行为与兴趣度之间关系的数学模型。考虑到用户行为的个体差异性,设计了一个用户浏览行为与兴趣度关系的建立与更新算法。该算法可以针对每一个用户的特点,综合利用用户的隐式反馈和显式反馈获取用户感兴趣的网页。
接着,探讨了基于兴趣主题的查询扩展技术。与传统的兴趣模型不同,本文采用了一种改进的兴趣模型,引入了文档生命值,在此基础上,提出了用户兴趣的生成和更新与个性化查询扩展两个算法,结合了局部分析和基于用户日志的查询扩展的优点,在一定程度上避免了局部分析方法中扩展源选择不好的问题。
最后,在进行上述理论分析和研究的基础上,设计了一个基于兴趣主题的查询扩展系统,并进行了相关测试,将基于兴趣主题的查询扩展方法与传统检索方法和局部分析方法进行了比较,结果表明,本文的方法能够有效的解决关键词的歧义现象,提高信息检索的准确率。