论文部分内容阅读
目前,搜索引擎已经成为人们在海量网络数据中获取信息的最重要的途径。然而用户查询大多是简单而模糊的,搜索引擎往往无法一步到位地理解用户真正的检索意图,因此,当不同用户提交同一个查询词时,搜索引擎往往只能不加区分的返回同样的检索结果。实践证明,用户检索的目的是多种多样的,即使是同一个查询词,不同用户对检索结果的期待也往往各不相同。为此,国内外专家已经开始了大量的研究,提出了一些新的检索方法,并尝试将用户兴趣、行为反馈、日志信息以及网页内容结合起来,使得网络信息检索技术朝着个性化的方向发展。
个性化检索系统是指那些针对不同用户背景返回不同检索结果的信息检索系统。在这些系统中,文档的相关性是基于不同用户的背景和兴趣而单独计算的。而用户的兴趣和背景通常通过用户反馈来获取。
本文在木棉搜索引擎的基础上,以个性化检索相关理论为依据,按照“用户反馈搜集--用户建模-一个性化重排序”的流程顺序展开研究,并为木棉检索搭建一个个性化检索平台。论文的主要工作包括:
1、使用异步消息传递来收集隐式用户反馈,避免了传统客户端数据收集方式所存在的不足,完备的用户行为日志可以为以后的研究提供数据基础。
2、基于VSM模型构建用户描述文件,对检索结果进行个性化重排序,并做了效果评估。初步测试证明:个性化检索确实具有较好的效果。
3、研究和分析了查询日志,实现查询词相似搜索和相关搜索,利用用户点击流信息实现了基于用户历史点击的个性化重排序并评估。
4、实现了搜索结果的聚类,方便用户浏览,并提出使用聚类标签进行查询扩展,较好地改善了用户二次检索的效果。