基于协同过滤算法的视频推荐

来源 :数字化用户 | 被引量 : 0次 | 上传用户:zhujie18604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】当前我们正处在信息过载时代,推荐系统是解决该问题的很好方法,相比搜索引擎要求用户必须有明确的目标并提供搜索关键字,推荐引擎自动地从用户的历史行为中发现用户的喜好并为其进行推荐;基于协同过滤算法的推荐是当前最为成功和广泛使用的方法,本文介绍了协同过滤的定义、协同过滤的实施步骤,并将协同过滤推荐技术应用于在视频推荐网站,实验结果表明基于协同过滤的推荐在视频网站应用效果非常明显。
  【关键词】信息过载 推荐系统 协同过滤 个性化
  一、引言
  目前电子商务系统已经被人们广泛的应用和接受,商品种类和数量快速增长,所以推荐系统就被广泛的应用起来,来帮助人们在最感兴趣的方便进行筛选,比如:书籍、文章、网页、电影、音乐、百货等。个性化推荐系统就是建立在海量数据挖掘的基础上,给客户提供一个完全个性化的决策和信息服务支持的只能平台。为了能够更好、更准确的为客户推荐, 研究者提出了多种推荐算法,以其多个优点成为大众眼里的推荐算法“No.1”,本文主要介绍协同过滤算法和实施步骤及其在视频网站的应用。
  二、协同过滤
  协同过滤(Collaborative Filtering)[2][3]也可叫做“协作型过滤”。CF算法是根据用户的行为与其他用户的行为来相互连通根据相关数据做一个详细的比较,找出最相似的地方,根据和它最相近的兴趣或者爱好,来判断和预测出该用户的兴趣或者爱好趋向,以辅助进行决策判定的一种算法。
  三、实施步骤
  要实现协同过滤,需要以下三个步骤:(一)收集用户偏好;(二)找到相似的用户或物品;(三)计算推荐。
  下面详细介绍协同过滤算法的实施步骤:
  1.收集用户偏好。收集用户偏好是基于用户的所有行为收集用户的偏好,这些行为包括普通的浏览、观看、搜索等行为,也包括用户显性的反馈信息,如收藏、购买、评分、评论等。针对不同应用场景可以对用户行为进行分组归类,对不同类型的行为进行加权处理,如用户的显性反馈行为权重一般高于隐性反馈,经过对用户的所有行为进行完整的加权后,这样就能得到所有客户的统一爱好趋向。最终得到了一个用户,偏好的二维矩阵,一维是用户列表,另一维是物品列表,值是用户对物品的偏好。
  2.找到相似的用户或物品。当对所有的用户分析完并且得到其爱好以后,可以根据用户喜好计算相似用户和物品,然后对相似的用户进行一些相关的推荐,这就是最典型的CF的两个分支:基于用户的CF 和基于物品的CF。这两种方法都需要计算相似度,基于用户的CF需要计算用户间的相似度,基于物品的CF需要计算物品间的相似度。
  3.相似度的计算。关于相似度的计算,通过计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,常用的相似度计算方法:(1)欧几里德距离;(2)皮尔逊相关系数;(3)Cosine 相似度;(4)Tanimoto 系數。
  4.相似邻居的计算。介绍完相似度的计算方法,下面我们根据相似度找到用户- 物品的邻居,常用的挑选邻居的原则可以分为两类。固定数量的邻居:不论邻居的“远近”,只取最近的K个,作为其邻居。这种方法对于孤立点的计算效果不好,因为,要取固定个数的邻居,当它附近没有足够多比较相似的点,就被迫取一些不太相似的点,作为邻居,这样就影响了,邻居相似的程度。
  基于相似度阈值的邻居:当物品与当前点之间的相似度大于指定的阈值时,将物品作为当前点的邻居,这种方法得到的邻居个数不确定,但相似度不会出现较大的误差。对孤立点能起到有很好的过滤。
  5.计算推荐。在得到物品之间的相似度后,ItemCF 通过如下公式计算用户u对一个物品j的兴趣:
  ,表示用户喜欢的物品的集合,是和物品i最相似的K个物品的集合,是物品i和j的相似度,是用户对物品i的兴趣。从该公式可以看出,和用户历史上该兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得较高的排名。
  四、协同过滤在视频网站的应用
  在专业的视频网站中,视频的数量远远小于用户的数量,且视频数量比较稳定。所以视频网站适合采用基于物品的协同过滤推荐。本文基于某视频网站电影频道所有用户的观影行为,构造用户视频的二维偏好矩阵,基于余弦相似度计算各个电影间的相似度,结合用户的最近观影记录进行综合推荐。基于该推荐系统对该网站的电影频道推荐模块进行了更新和升级,上线前后对推荐模块的点击率进行了持续跟踪,点击率=推荐模块的点击次数/推荐模块的曝光次数,对比系统上线前后2周的推荐效果,上线前2周的推荐模块的日均点击率为4.47%,上线后2周的日均点击率为9.84%,提升幅度达120%,基于实验结果可知,协同过滤的推荐机制非常适用于视频类网站,相比于基于内容的视频推荐机制推荐效果明显较好。实验数据对比如下图1.
  五、小结
  本文简要介绍了协同过滤推荐机制、协同过滤推荐系统的实现步骤,并将协同过滤算法应用于某专业视频网站,通过实验数据显示基于物品的协同过滤在视频网站中推荐效果非常明显,后续我们会扩大协同过滤的应用范围、关注协同过滤的冷启动问题,针对冷启动采用基于内容的推荐结果进行补充或者采用主编推荐内容对新物品进行混合推荐。
  参考文献:
  [1]亚马逊Amazon的个性化推荐原理,
  [2] 马宏伟、张光卫 李鹏,协同过滤算法综述,小型微型计算机系统,2009年7月 第7期
  [3] 王国霞,刘贺平, 个性化推荐系统综述[J]计算机工程与应用,2012.48(7):P61-75.
其他文献
肝脏含大量巨噬细胞、抗原递呈细胞和淋巴细胞,通过产生细胞因子、补体和急性反应蛋白,对潜在的特异危险信号作出快速应答。
在人类日益注重健康的今天,水质工作仍然是今后净水工作应当重视的主要问题。本文针对净水工作中影响水质的各种关键因素进行分析,有针对性地解决生产中的一些实际问题,以便在今
【摘 要】在软件过程中,活动相关度是过程中各个活动相互关联的程度的一种度量,为了能够较好地对过程中的活动相关度进行度量,本文首先对过程中活动和活动相关进行定义,将活动相关分为数据相关和控制相关两种。并提出一种基于结构熵的活动相关度的度量方法,从数据相关和活动相关这两方面对活动相关度进行度量,并综合以上两种相关度给出了一个活动的相关度的度量方法。最后,通过这种活动相关度的度量方法对过程中可挖掘的活动
【摘 要】讨论了在VFP中控制WORD的方法,重点讨论了从VFP输出数据到WORD文档的方法。  【關键词】Visual Foxpro数据输出调用WORD  一、分析遇见的问题  目的:用VFP做关于稽征所对违章行为进行处罚的一个小系统,系统的主要内容是:“违法案件”方面的。案件的信息量平均约有二十项左右,案件的相关信息数据是需要处理掉的,需要我们特别关注的有:案件最后的处理结果,相关每条信息都要
总行电子公文传输系统和我省人民银行办公自动化系统(OA)自运行以来,我们应用两个系统发送、传阅以及处理公文、邮件等,提高了工作效率。但我中支在使用中发现,随着技术进步和公文处理以及档案管理的变革,系统设计思路已显陈旧,不能满足工作的全部需求。集中表现在:  一、电子公文传输系统问题  (一)发文种类少。只有中心支行和党委两种发文,没有科室发文,上级行处(室)以及中心支行科(室)则不能发文,只能用纸
【摘 要】自改革开放以来我国经过三十多年的发展已经有了质的飞跃,各个领域都正处于转型的特殊时期,因此,全社会都在关注中国企业在这个阶段的发展。在新的经济形势下,中国企业所面临的竞争愈加激烈,如何提升自身的核心竞争力来求得生存和发展,已经成为大家关注的重点。同时,计算机技术也层出不穷,信息化管理也有了更加广泛的应用,本文重点研究和探讨了计算机信息化在企业管理领域的应用。  【关键词】企业 信息化 管
【摘 要】本文从JSP与教材质量评估的关系、JSP技术对教材评价系统的设计、实现三个方面进行浅述JSP技术完成教材评价系统建立和应用的方法。  【关键词】JSP程度 教材评价系统 设计 应用  一、JSP与教材质量评估的关系  (一)教材质量评估的重要意义  教材是教学内容的一种规范,它是指导教师完成教学任务的重要工具,一本好的教材能深入浅出的描述教学内容,它能引导教师进行有效的课堂教学,也能引导
目的分析MLL基因重排成人急性髓系白血病(AML)的临床、实验室特征及预后情况。方法回顾性分析2010年1月至2016年12月确诊的92例MLL基因重排成人AML患者的临床和实验室资料。结果1 417例成人AML(不包括急性早幼粒细胞白血病,均采用FISH方法进行了MLL基因重排分析)患者中检出92例(6.5%)MLL基因重排患者,男女性别比为1∶1,诊断时中位年龄为35.5(15~64)岁,中位
期刊
【摘 要】国土资源实行信息化已经成为了国家各个资源管理机构的共识,实行信息化可以有助于提高我们资源规划使用效率和办事的水平,让我们可以合理的利用我们的土地,增加土地的有效利用率方便我们在做规划的时候参考,更加的便民利国。实行国土资源数据的采集,以此推动我们资源管理的信息化进程。本篇论文是立足于国土它的数据资源分析和它的管理形式上,然后对国土资源数据的现在发展从而展开讨论以及深入研究。  【关键词】