论文部分内容阅读
通过对搜索引擎的日志进行统计分析,可以了解用户使用搜索引擎的规律,挖掘用户的兴趣信息,从而可以提高网络信息检索技术的性能。搜狗是一个中文搜索引擎,本文对搜狗日志中有密切联系的查询、用户和点击3个元素进行了统计分析,着重统计分析了各项之间的相互关系,揭示出用户使用搜索引擎的一些新规律:用户在检索过程中对各大门户网站的关注最多;在一个月的时间内提交少于5个不同查询词的用户占据了93.7%,60%的查询词对应多于两个的用户点击,而且93%的用户点击的URL不会多于10个;文中根据用户对相同查询的点击相同与否这个信息,论证了个性化信息检索的必要性,协同推荐技术只能解决少量用户和查询的检索问题,对于大部分的用户和查询,需要个性化的技术来解决。这一发现对于改进中文搜索引擎的性能有很好的指导意义.