论文部分内容阅读
数字图书馆中存储了海量的数字资源,用户在检索这些资源的时候,往往面对过多的资源产生困惑,不知道那些资源才是他们最需要的。同时不同用户对资源的喜好和需要也是不同的。满足用户个性化需求,为用户提供优质的个性化服务是数字图书馆信息服务发展的趋势。
“信息过载”和“个性化服务”成为当前数字图书馆建设中逐渐突出的问题。中国高等教育文献保障体系(CALIS)通过构建中国高等教育数字图书馆(CADLIS),汇集了国内外很多数字资源,致力于为用户提供综合的一站式的个性化服务,从而提高数字图书馆服务质量。本论文作为该项目的一个子课题,通过研究和开发个性化推荐系统,使CADLIS门户系统能为用户提供一种主动式的个性化的服务手段。
个性化推荐系统通过收集和分析用户信息来学习用户的兴趣和行为,构建用户的兴趣模型,积极主动的对用户行为进行指导,帮助他们查找对他们来说最有价值的信息。本文的贡献是将关联规则挖掘与协同过滤算法相结合,提出了基于规则库查询匹配的个性化推荐系统。本文对单纯基于关联规则挖掘的方法进行了改进,在此基础上引入协同过滤中“邻居用户”概念,提出了将邻居用户关联规则以及邻居用户同目标用户之间的相似度作为生成最终目标用户规则的影响因子,从而提高了个性化推荐系统的推荐质量;同时,在构建邻居用户的时候提出了预测用户访问频数的办法,解决了构建邻居用户时的用户矢量稀疏度的问题。
本文在进行系统设计和实现的过程中,重点解决了以下几个问题:
1.用户交互与隐私问题:本文利用隐式方法来构建用户模型,使推荐系统能自动跟踪用户的访问过程,从用户的访问历史数据中挖掘用户的兴趣模型。这样能避免系统与用户的交互,从而提高了用户使用推荐系统的效率和积极性,避免了用户的隐私问题。
2.大稀疏度问题:当数据集的项目很多的时候,用户的矢量模型具有很大的稀疏度。采用通常的方法来计算用户之间的相似度,所产生的邻居用户会很不准确。这是因为,用户没有访问过某一项目并不说明他/她对此项目不感兴趣。为解决这种大稀疏度问题,本文提出了预测用户访问频数的办法,即利用项目矢量之间的关系,预测用户对没有访问过的项目的可能访问频数,从而提高了生成邻居用户的准确度。
3.推荐质量问题:相似度很高的用户往往具有相似的兴趣爱好,他们所喜好的项目对于给目标用户产生推荐项目具有很高的参考价值。本文通过对邻居用户的强关联规则加权,生成新的影响因子,形成最终用户的强关联规则,从而提高了系统的推荐质量。
4.推荐服务的实时性问题:用户对于推荐系统的实时性往往有很高的要求。本文在推荐系统中采用了规则推荐的方式,产生用户推荐所需要的时间实际上就是推荐引擎到规则库中进行匹配查询的时间。这种查询时间很短,这使得系统能实时地将项目推荐给用户,避免了用户因等待较长会产生厌烦的情况。