协同过滤算法在新闻推荐系统中的比较研究

来源 :东方教育 | 被引量 : 0次 | 上传用户:skykight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文首先对基于用户、项目和模型的协同过滤算法在新闻推荐系统中的应用进行对比;接下来,着重对基于关联规则、聚类、分类、回归、矩阵分解模型的协同过滤算法在新闻推荐系统中的应用进行对比;最后,阐述了协同过滤算法在新闻推荐系统中的运用所面临的挑战及今后需努力的方向。
  关键词:新闻推荐协同过滤算法算法比较
  一、引言
  随着互联网的飞速发展,上网浏览新闻已成为网民们的习惯,然而海量的新闻并不一定都是网民们所关注的,广泛的阅读会严重影响阅读效率,因此新闻推荐应运而生[1]。新闻推荐是指通过用户信息和新闻内容,根据一定的推荐算法,智能地找到与用户兴趣偏好相匹配的新闻,尽可能多地主动推荐给用户,以提高用户阅读新闻的效率和质量。
  推荐算法是新闻推荐最核心和关键的部分,其性能的优劣直接影响推荐的质量,目前常用的推荐方法包括:基于内容的推荐,基于协同过滤的推薦等,其中协同过滤推荐(Collaborative Filtering Recommendation)是目前应用最为成功的个性化推荐技术,包括在线和离线过滤两部分,具体又涵盖多个分支,其应用促进了新闻推荐系统的发展。
  二、新闻推荐系统的过程体系
  新闻推荐系统的核心过程为:数据的收集和预处理,选用适合的推荐算法,推荐效果评价,如图1所示。
  1.数据的收集和预处理包括:1)形成用户档案和候选新闻集,包括:用户的个人相关信息、用户浏览新闻的数据、传感器感知的上下文数据,如:时间、地理位置、情绪等等;2)对收集的数据进行数据清理、转换,最终形成用户对各新闻的二维评价矩阵。
  如表1所示:其中Rij表示第i个用户对第j条新闻的评分(0≦Rij≦10),一般说来,分数越高,表示用户对该新闻的喜好程度越高。
  2.选用推荐算法。一般先对预处理后的数据再进行最近邻居搜索,计算目标用户与用户档案集里面的其他用户的相似度,相似度最高的作为最近邻居集。其次,通过一定的推荐算法和最近邻居集的评价值,产生推荐。目前己有的协同过滤算法有两个主要的研究方向:基于用户或项目(新闻)的协同过滤算法和基于模型的协同过滤算法。
  3.对推荐效果的评价。基于用户反馈,利用点击率、精确度、响应时间等评估指标评价新闻推荐的性能[2]。
  三、协同过滤算法比较
  1.基于用户或项目(新闻)的协同过滤算法
  基于用户的协同过滤算法主要考虑用户之间的相似度,利用用户间需求的相似性,智能的为用户筛选有用信息。只要找出相似用户偏好的新闻,并预测目标用户对此新闻的评分,就可将评分较高的新闻推荐给用户。而基于项目(新闻)的协同过滤算法则是找到新闻之间的相似度,只有找到目标用户对这些新闻的评分,就可以将相似度高的新闻推荐给用户。
  两种算法的主要区别在于前者需要在线计算用户的相似度,计算复杂度较高。而后者,在考虑新闻的相似性在一定时间内不变的前提下,可离线计算,精确度要求不高,推荐的多样性较差。
  2.基于模型的协同过滤算法
  基于模型的协同过滤算法是目前用的较多的算法,它的优势在于可以利用现有数据,构建出新的预测和偏好数据,通过机器学习的分类方法,或采用技术降维手段抽取特征数据,映射到低维空间,使原始数据变得更为稠密。另外还可以利用原数据中的潜在结构进行数据压缩,以达到减少维度。能很好的解决数据稀疏性等问题。具体可分为:基于关联规则、聚类、分类、回归、矩阵分解等模型的算法。
  2.1 基于关联规则的协同过滤
  找出用户查看的所有新闻数据中频繁出现的项集活序列,来做频繁集挖掘,找到满足支持度阈值的关联新闻的频繁N项集或者序列。如果用户查看了频繁N项集或者序列里的部分新闻,则可将频繁项集或序列里的其他新闻按一定的评分准则推荐给用户,这个评分准则可以包括支持度,置信度和提升度等。常用的关联规则算法有Apriori,FP Tree等。
  2.2 基于聚类的协同过滤
  用聚类算法做协同过滤与基于用户或项目(新闻)的协同过滤类似。可以基于一定的距离来聚类。如果基于用户聚类,则可以将用户分成不同的目标人群,将在同样目标人群中评分较高的新闻推荐给目标用户。基于新闻的聚类,则是将与目标用户评分高的新闻相似的新闻推荐给他。常用的聚类推荐算法有K-Means, BIRCH等。
  2.3 基于分类的协同过滤
  对用户的评分设置阈值,评分高于阈值的新闻进入推荐范畴,低于阈值不予推荐。常见的分类推荐算法有逻辑回归和贝叶斯,基于分类的协同过滤不但解释性强,而且可以对数据的特征再进行训练,不断达到优化。
  2.4 基于回归算法的协同过滤
  用回归算法做协同过滤比分类算法看起来更为直观。通过回归模型可以得到目标用户对某新闻的预测打分,而此评分可以是一个连续值。常用的回归推荐算法有回归树、支持向量回归等。发
  2.5 基于矩阵分解的协同过滤
  代表算法是奇异值分解(SVD),它利用特征提取,对隐含语义的检索有较好的效果。但缺点在于经过预处理的二维评价表是典型的稀疏矩阵,SVD必须经过算法的改进变种才能处理,比如FunkSVD、SVD++等[3],此外分解机(Factorization Machine)和张量分解(Tensor Factorization)也将成为矩阵分解的新趋势。
  四、结束语
  协同过滤作为一种经典的推荐算法,应用广泛,通用性强。近几年来,协同过滤算法在新闻推荐系统中的运用已取得了一定的成绩,在一定程度上解决了数据的可扩展性、稀疏性、冷启动和强健性等问题,但随着网络应用规模的不断扩大,用户对系统使用要求的不断提高,推荐系统的在安全性、实时性、计算效率、推荐的精确性等方面还需进一步发展。
  参考文献:
  [1]张同启. 基于关联规则和用户喜好程度的综合电子商务推荐系统的研究[D]. 北京邮电大学, 2015:32-33.
  [2]彭菲菲,钱旭.基于用户关注度的个性化新闻推荐系统[J].计算机应用研究,2012,29(3):1005-1006.
  [3]孙小华,陈洪,孔繁胜.在协同过滤中结合奇异值分解与最近邻方法.计算机应用研究,2006,23(9):206-208.
其他文献
摘要:中国目前养老服务仍然以传统的家庭养老模式为主,但传统家庭养老已经很难跟上时代的步伐,甚至成为阻碍社会发展的绊脚石,因此我们需要立足于中国社会的实际情况,探索出一套适合新形势下的社区养老模式。  关键词:社区照顾;养老模式;借鉴  一、社区居家养老模式的概念及特点  (一)社区养老的概念  所谓社区居家养老,指的是以社区多样化的资源为基础,给老年人提供各种居家服务,涉及到家政、心理安慰、康复护
期刊
摘要:此文撇开了一般资料中的观点:生命的起源与老子的“道生一…”不搭界,相反,确认生命的起源恰恰契合老子《道德经》里:“道生一,一生二,二生三,三生万物。”的观点。此文还别致地将生命初期的蛋白质分成了:优,中,劣三类。文章中引用唯物辩证法指出:内因为主,外因为辅,是生命进化的本质属性,从而,跨越了生命起源的鸿沟。文章中还将一般资料里的“超级酶”,重新命名为“倾向性功能酶”;并推理:老子“道生一…”
期刊
摘要:探索推进医养结合养老模式,正逐渐成为健康中国背景下实现健康老龄化的一项重要举措。本文探讨了西安市医养结合养老模式改革的背景,剖析了西安“医养结合”模式发展中的问题,并基于问题提出了解决对策。  关键词:健康中国;医养结合;养老模式;西安  一、西安市养老模式改革的背景  近年來,国家高度重视医养结合养老模式的发展,已经出台了几个相关文件去推动各项工作,2015 年 11 月 18 日,国家卫
期刊
摘要:“家乡的物产知多少”是品德与社会四年级下册第一单元不哺育我成长的家乡的一篇重要课文。目的是安排学生了解家乡物产,让学生对家乡有更近翼部的认识,从而丰富和发展学生的经验、情感,加深学生对家乡的了解,并在此基础上增强热爱家乡,为家乡做贡献的情怀。在这节课里我主要设计了三个活动板块。  关键词:家乡物产;学生兴趣;生活体验;爱乡情怀  一、通过活动板块的开展,激发学生的兴趣  板块一:说说家乡的风
期刊
摘要:出境旅游,是旅游的一种,是指到自己国家以外的国家或地区的旅游。本文介绍了我国出境旅游管理体制中存在的问题,并给出改革措施,旨在提高出境旅游的服务质量,促进出境旅游产业的健康发展。  关键词:出境旅游;存在问题;体制改革  1、引言  随着社会的发展,人民生活水平日益提高。许多人获得了可观的经济收入,但工作繁忙,过于劳累。出境旅游成为许多人缓解生活压力,放松心情的首选方式。然而,出境旅游是我国
期刊
摘要:急性肝损伤是肝脏对刺激性损伤进行自我修复的一种病理过程,若不及时治疗可能会发展为慢性肝炎、肝硬化,甚至肝癌。急性肝损伤是一个复杂的病变过程,主要由核转录因子(nuclear transcription fator-kappa B,NF-κB)信号转导通路控制。因此深入探索NF-κB信号转导通路与肝损伤的关系,有望找到有效防治肝损伤的途径。  1、肝损伤  肝脏疾病是影响人类健康的常见疾病之一
期刊
摘要:影视化妆造型是综台性影视艺术创作的重要组成部分,是构成剧中人物形象性格化特征的主要因素。  关键词:影视;化妆;造型  一、影视化妆概述  影视化妆造型,是化妆师依据影视作品中特定的人物、个性的需要,在演员自身形象的基础上采用一系列相应的化妆造型手段与方法,将演员形象与角色特征有机的融合在一起,塑造出的有鲜明角色特征并与剧情深情切合的可视影视形象。它是影视艺术构成与表现的必要组成部分,化妆师
期刊
摘要:随着国际交流的不断增多,各国文化交流也逐渐加深。尤其是“中国风”已经受到了设计师的追捧。将中国元素融入到国际服装设计中已经成为了中国设计师的梦想。在长期的发展过程中,中国传统服饰的设计水平有了一定的提高,但是也还存在着不足,所以对于设计师来说,要不断进行深入挖掘与探究,坚持以最流行的设计理念来设计服装。基于此本文针对传统与时尚融合的中国风格服饰设计进行了简要阐述。  关键词:传统与时尚融合;
期刊
摘要:在電气工程及其自动化建设不断发展的过程中,促使社会生产效率及人民群众生活水平大幅度提升。电气工程及其自动化作为社会工业信息化发展中的核心内容,显得更为重要起来。但是目前我国电气工程及其自动化领域中仍然存在一些问题,笔者依据实际工作经验及相关文献资料的记载,详细分析电气工程及其自动化中存在的问题,并预测未来电气工程及其自动化的发展趋势,希望能够在日后相关工作人员对这个问题进行分析的时候,起到一
期刊
摘要:高等学校信息化管理公共服务基础设施是高校信息化管理基础服务的载体,是各个信息管理系统互联互通的桥梁,是为信息管理系统提供中介服务的平台,本文从政策、服务、基础设施建设等方面分析了国内信息化管理的存在的问题,指出了公共服务基础设施建设的紧迫性,提出了高校信息化管理公共服务基础设施的总体架构。探索高校信息化管理公共服务基础设施建设总体思路,希望引起有关专家学者的重视。  关键字:公共服务基础设施
期刊