基于个性化的协同过滤图书推荐算法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:goodhope9010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近年来,随着国家对教育的重视,图书馆图书呈线性增长,借阅者很难从海量的图书资源中选取有用的信息。基于个性化的协同过滤推荐算法有效地解决了这个问题,为了提高推荐的准确度,引入相似度影响因子,充分考虑不同因素对推荐结果影响力的大小。
  关键词:推荐系统;系统过滤;用户相似性;影响因子
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)28-0088-02
  1 背景
  协同过滤算法给我们的生活带来了极大的便利,特别是当我们在网上购物时,网站总是能推送我们需要的商品,简化了购物过程,方便了我们的生活。协同过滤算法可以根据用户偏好和其他特征为用户推荐相似物品,面对海量的图书馆图书资源,如果可以将协同推荐算法用于图书馆图书推荐,将能极大地方便学生的学习生活。
  2 相关工作
  以前图书馆推荐算法直接依据图书评分数据,按评分高低向用户进行推荐,没有考虑到用户的偏好和需求。随着技术的发展,图书推荐算法也得到了改进,目前常用的图书馆推荐算法大致分为三种:
  1)基于内容的推荐算法:该算法的基本思想是根据用户的借阅历史记录,分析借阅书籍,提取用户标签数据,然后将用户标签和图书标签进行匹配,观察匹配程度,选取前N本图书,生成图书推荐列表。
  2)协同过滤推荐算法:该算法在基于内容的推荐算法上进一步改进,加入相似度概念,考虑有着相似兴趣爱好的读者对用户的影响。我们需要计算用户相似度,找到与该用户最相似的top-N用户,然后分析用户对这些相似用户已借阅读书的感兴趣程度,得到图书推荐列表。目前有三种常用方法用于计算用户之间的关联度。
  欧几里得距离法:将用户对读书的评分转换成向量的形式,由此我们得到一个n维的评分向量,利用欧几里得公式计算两个向量之间的距离,距离值越小相似度越高,欧氏公式为:
  余弦相似性:将用户评分看成一个n维的向量,利用余弦公式计算两个用户向量夹角余弦值,值越大两个用户就越相似,余弦公式为:
  相关相似性:利用Pearson相关系数计算两个读者之间的相似程度。
  3)基于用户个性化协同过滤推荐算法:根据高校的实际情况和需求,应运而生了一种基于用户背景的个性化推荐方法。一般情况下,用户多会借阅本专业的相关书籍,所以在进行推荐的过程中可以重点考虑相关专业同学的借阅记录,将他们借阅过的书籍进行重点推荐。
  3 基于个性化的协同过滤推荐算法
  3.1 图书初始评分
  每天图书馆会有大量的新书上线,这些新书由于之前没有人借阅,需要为这些图书人为的划分类别和设置评分初值,根据《中图法》可以将图书划分成不同的22个大类。
  3.2 计算用户对每一类别图书的偏好
  根据用户的借阅历史和历史评分,结合之前的图书分类数据,计算用户对一类书籍的总评分。用户借阅不同类别书籍的数量不同,可以反映用户对某类书籍的喜爱程度,为此我们为用户已评价类别赋予不同的权重值:。为某类别图书借阅统计次数,为所有借阅图书的总次数。由此我们可以计算出用户对该类图书的评分,评分公式为:
  表示读者a对类别书籍的评分,i属于类别的图书,是用户对类别图书的总评分。
  3.3 根据用户偏好,计算用户相似度
  上一步我们得到了用户对图书类别的评分,根据这个评分,使用皮尔逊相关系数算法计算用户之间的相似度,找出用户的近邻集合U。皮尔逊相关性公式为:
  M为用户a和b的共同评分项,和分别为用户a和用户b的平均评分,利用图书类别计算用户间的相似度可以大大减少计算量。根据上式我们得到用户之间的相似度,依据相似度大小进行排序,选取前N个用户作为用户a的邻居集合U。
  3.4 预测用户对其他书籍的评分产生推荐
  我们根据用户的近邻集U可以产生图书推荐列表,为了使推荐列表更准确,我们引入读者相似度的影响因子。考虑到实际情况,影响因子的主要有用户专业、职位和以往评分准确度这三个方面。
  1)专业:
  众所周知,相同专业的学生对书的需求是相似的,所有相同专业学生的借阅书籍对推荐影响较大(),影响因子表达式如下:
  2)职位
  学校内老师、研究生和大学生是借书的主力军。不同职位的人对图书好坏的判读力是不同的,因此老师对图书推荐的推荐影响力应该最大。下表中的,,呈现逐渐递减关系:
  3)历史评分准确度
  不同用户有不同的评分习惯,对图书评分的标准不同,为了确保推荐的准确度,我们引入第三个影响因子。如果用户评分越接近平均分则用户评分越准确,影响因子也就越大,影响因子计算公式为:
  其中S为用户评分图书集,为用户对图书i的评分,为图书的平均评分,max和min分别为图书i获得评分的最大值和最小值。
  综上所述,用户的综合评分影响因子表达式为:
  用户对某本图书的预测评分公式为:
  n为属于U集合的用户数量,和分别为用户a和用户b的平均评分,为用户b对j图书的评分。
  由用户对某本图书的预测评分公式,我们得到用户对推荐列表内每本图书的预测评分,根据实际情况,我们选择前N本图书进行推荐。
  4 结束语
  随着科技的发展,推荐系统在我国得到广泛使用,图书推荐系统也逐渐进入学生的学习生活。根据高校的实际情况,我们提出了一种改进的图书推荐系统,引入影响因子概念,提高推荐准确度。使学生在面对海量的数据时可用更方便地找到符合自己的学习资源。
  参考文献:
  [1] 刘建国, 周涛, 汪秉宏. 个性化推荐系统的研究进展[J]. 自然科学研究进展, 2009, 19(1): 1-15.
  [2] 张怡文, 岳丽华, 张义飞. 基于共同用户和相似标签的好友推荐方法[J]. 计算机应用, 2013, 33(8); 2273-2275.
  [3] 吕果, 李法运. 基于改进协同过滤的移动个性化推荐服务研究[J]. 情报探索, 2014(20): 101-105.
  [4] 杨涛, 曹树金. 图书馆用户的个性化服务需求实证研究[J]. 大学图书馆学报, 2011(2): 76-85.
  [5] 许文青, 林双平. 融合热门度因子基于标签的个性化图书推荐算法[J]. 图书情报研究,2015(3): 82-86.
  [6] Koren Y. Factor in the neighbors: scalable and accurate collaborative filtering[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 4(1): 24.
其他文献
信阳竹书1~2号简与《墨子》佚文有密切的对应关系,本文在诸家这一共识的基础上,对竹书关键性词语重新考辨,以印证墨家的“尚贤”思想。
芒果落果和疏果都是未成熟的果实,质脆而清香,富含有机酸、β-胡萝卜素、维生素等成分,是加工各种小食品和开胃酱菜的理想原料,具有原料廉价、质地佳、风味突出、工艺简单等
“地方”是美国当代诗人查尔斯·赖特诗歌创作的重要媒介和主题。赖特的诗歌创作是记录其记忆的独特形式,而“地方”则成了他打开记忆的方式。诗人毕生所作均为抒情诗或
学生的身体健康问题一直是社会各界关注的重点,而初中生正处于身体快速发育的关键阶段,一个健康的体魄尤为重要.然而,初中体育教学目前面临着诸多问题,包括很多学生对体育课
系统研究了不同含量和粒度WC颗粒以及不同熔覆方式与工艺参数下,激光熔覆层中陶瓷相的分布状态,采用图像分析仪测定了陶瓷的分布密度与间距,并依据定量金相原理提出了陶瓷相间距计
以Mannich反应拟合成3-胺甲基-4-羟基取代的苯骈吡喃化合物(Ⅲ),得到Diels-Alder缩合产物,初步探索了反应条件并确定了所得产物的结构。
本文分别从理论依据与实践角度论证了师范院校开展竹笛课程的重要意义,并结合近年来的教学经验与规律总结出部分适合师范类学生学习竹笛的内容与方法,从而使得学生在学习过程
将扶贫与扶志扶智相结合,因地制宜打好民生扶贫、产业扶贫、党建扶贫、教育扶贫、消费扶贫、生态扶贫组合拳,探索出扶贫新路径,切实发挥了国有企业在精准扶贫中的主力军作用
本文借鉴西方关于IP0的研究成果,结合中国股市的实际,对新股发行首日初始收益率进行实证研究,以探讨我国股票市场是否存在发行价偏低现象,并分析了其可能的产生原因;构造经济
摘要:为了使远程控制软件顺利的通过windows防火墙和杀毒软件的封锁,与服务器端主机进行实时通信。该文分析与阐述了通过可靠的TCP协议建立的套接字技术,绑定反弹端口,实现了服务端程序始终对反弹端口进行实时监听。  关键词:反弹端口;套接字编程;MFC;远程控制  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)06-0018-03  Application and