基于用户兴趣变化的混合推荐算法分析

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:wuzhihot9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:推荐算法被应用在商品购物、音乐推荐、书籍推荐等网站。如何根据这些已有的用户行为数据让用户快速做出抉择,推荐算法显得十分重要。传统的协同过滤算法没有考虑到用户的兴趣是随时间而变化的。文章首先在传统的协同过滤算法的基础上构建时间变化函数,对用户以往的评分数据,对数据做时间加权,提高预测用户兴趣的能力。针对当前推荐算法都会遇到的评分稀疏性问题,文章提出了把基于时间权重的协同过滤算法与基于关联规则的推荐算法进行混合推荐,提高了算法的准确率。
  关键词:推荐算法;时间加权;基于内容;混合推荐;MAE
  1   推荐算法研究现状
  (1)协同过滤:协同过滤算法根据具有相同行为习惯的人对用户进行推荐[1]。
  (2)基于内容的推荐算法:基于内容的推荐算法,实际上是对用户行为数据的属性信息进行分析,包括了用户的属性及商品的属性。
  (3)混合推荐算法:混合推荐算法避免了单一算法的弊端,将几种算法进行结合,达到取长补短的效果。
  2 基于时间权重的协同过滤算法
  2.1 时间相关算法介绍
  为了提高推荐算法的精度,时间是比较重要的信息,它具有一定的时效性[2]。根据用户行为的时间信息发现用户兴趣的变化。将用户的评分融入协同过滤算法[3],目前有两种主要的算法时间感知算法和时间依赖算法[4-5]。
  时间感知算法的主要思想是用不同的分类方法对时间进行分类。用户的兴趣具有周期性是将能够采用这种分类方法。实验也证明了这种方法的结果优于未利用时间感知信息的推荐算法。
  时间依赖算法则是把用户的兴趣变化和时间紧紧地联系在一起,认为用户的兴趣变化和时间是连续变化的量。假设考虑时间因素,那么每个用户近期的评分比之前远期的评分更能反应用户的兴趣偏好。所以时间依赖算法在传统推荐算法的基础上加入了时间因子,给近期的评分更大的参考价值。
  2.2 相似度计算
  用户的相似度计算主要有余弦相似度和Pearson相关系数两种方法,同时还有对Pearson相关系数加以约束计算用户间的相似性。皮尔森相似度公式为:
  Pearson相关系数的方法将用户的评分标准不同纳入了考虑范围,因为每个用户的评分标准尺度不同。Pearson系数消除了用户之间平均值差异的可比性。接下来根据相关数据来预测用户对未曾看过的电影的评分,预测评分公式为:
  2.3 时间加权函数
  首先定义一个半衰期参数因子T:F(T)=(1/2)f(0),时间权重定义在T天后,时间权重变为原来的1/2,然后定义了一个衰变率ɑ∶ɑ=1/T。时间衰减函数为:
  时间衰减函数的值域从0到1,随着时间的推移,历史评分数据越久远的权重会越来越小。当t=0时,表示函数值为1,此时权重最大。参数T0决定了历史评分数据的衰减率,当参数发生变化时,时间函数的曲线会发生变化。
  2.4 基于时间权重的相似度计算公式
  当用户在计算相似用户时,给每个评分引入了以时间为参数的函数f(a),修改后的公式为:(假设用户分别为u1,u2)。
  以上公式带有时间信息,由此可以生成带有时间信息的用户—商品的评分矩阵,利用当前用户的平均评分偏差,实现对用户推荐项目的预测评分。
  3 本文方法
  3.1  实验设置
  本文采用的方法为基于关联规则的推荐算法和基于时间的用户协同过滤算法两种策略做混合推荐,进一步提高算法的精度。
  3.2 混合推荐过程
  混合推荐分以下几个步骤:(1)利用用户—商品评分矩阵计算用户之间的相似度。选举前N个最近邻居,利用时间衰减函数和Pearson相关系数计算预测评分。(2)用Apriori关联规则分析算法挖掘频繁项集,选取前N个置信度最大的项目。(3)将上述的结果集进行取并操作,生成推荐列表。
  4 实验方案
  4.1 实验数据
  MovieLens-1M数据集,包含大约100万条用户评分记录。数据集包含用户信息、电影信息、用户对电影的评分信息、评分时间戳,是6 040个用户对3 900部电影的1 000 209条评分记录。评分分5个等级,1分表示用户很不喜欢电影,5分表示用户非常喜欢电影。
  4.2 环境配置
  硬件环境:
  (1)windows10
  (2)CPU:intel7代8700k
  (3)内存24 G
  软件环境:Pycharm
  4.3 实验对比环节
  (1)在相同数量的最近邻居的情况下选择不同的时间因子,进行MAE值的比较;再选取相同的时间因子不同的邻居数进行MAE值对比。
  (2)比较混合的推荐算法与传统协同过滤算法在MAE值的差异。
  4.4 算法评估
  MAE表示评分之间的平均评分偏差。MAE取值0~1。MAE越小,表明算法的推荐效果越好。计算公式表示如下:
  P:用户U对商品M的预测评分;R:用户U对商品M的评分;N:商品的总数量。
  5 实验结果与分析
  (1)选取不同的时间跨度参数T,得到衰变率ɑ,比较不同的时间衰变因子对MAE的影响。最终统计结果如表1所示。
  可以得出:随时间因子增大,MAE值逐渐减少,证明了时间跨度距离现在越近,预测结果更加符合用户的偏好。
  (2)将基于关联规则算法和基于时间的协同过滤的混合推荐算法同协同过滤算法进行比较,进一步提高算法准确率。MAE值如图1所示。
  6 结语
  通过构造时间函数模拟用户兴趣随时间变化的规律,融合在用户对项目的评分信息中,与此同时通过关联规则挖掘商品之间的潜在关系,解决用户—项目评分矩阵稀疏性问题,通过构成混合推荐算法,进一步提高了推荐算法的精度。
  [参考文献]
  [1]BOK K,LIM J,YANG H,et al.Social group recommendation basedon dynamic profilesand collaborative filtering[J].Neurocomputing,2016(C):3-13.
  [2]毛晓勐.基于时间效应的协同过滤推荐算法研究[D].上海:华东师范大学,2016.
  [3]郑志高,刘京,王平,等.时间加权不确定近邻协同过滤算法[J].计算机科学,2014(8):7-12.
  [4]VINAGRE J,JORGE A M.Forgetting mechanisms for scalable collaborative filtering[J].Journal of the Brazilian Computer Society,2012(4):271-282.
  [5]CAMPOS P G,DIEZ F,Cantador I.Time-aware recommender system:a comprehensive survey and analysis of existing evaluation protocols[J].User Modeling and User-Aadapted Interaction,2014(1-2):67-119.
  (編辑 傅金睿)
其他文献
我叫吴斌,2006年12月入伍,现任连队班长。入伍以来,我当过报务员、进过炊事班、干过文书、写过新闻报道、担任过党小组长。这些岗位虽然小,但只要有担当、肯使劲,一样能有大
重新认识“清澈的爱”这四个字,是因为那个吃着橘子笑得有如朝阳般灿烂的未满19岁的小战士——陈祥榕;为了这四个字泪奔是因为小战士的战斗口号“清澈的爱,只为中国”;想要为
从我小时候起,母亲就教导我诚实做人,可她自己却有这样那样的“谎言”。但正是母亲的这些“谎言”,给予我人生无穷的力量1977年,我出生在鄂西北的一个偏远村庄,父母都是朴实
快乐心声:2011年12月,告别绚丽多彩的校园生活、离开家乡和亲人,我脱下时装,换上戎装,满腔热血踏上了北上的列车,经过近两天的奔波,终于到达了梦想启航的军营。车门打开时寒
国际接触镜教育者学会(以下简称“IACLE”)成立于1979年,总部在澳大利亚,是一个非赢利性、非政治性的国际教育组织,已经在全世界60多个国家的300余所学校建立了教育资源中心
多糖类物质是具有提高免疫力、抗病毒、抗肿瘤、抗氧化、抗炎症等广泛生理作用的生物活性成分。近年来,甘草多糖的作用受到研究人员的广泛关注,甘草多糖可以通过调节机体固有
为了考察过硫酸氢钾复合物粉的质量特性,通过水中溶解度、水中有效氯稳定性、金属腐蚀性、局部刺激性以及对目标病原微生物的杀灭效果等试验,对过硫酸氢钾复合物粉进行质量研
摘 要:随着数据信息化水平的增加,信息的安全受到越来越多人的重视。在大数据时代,计算机的网络安全问题成为一个有争议、有关注度的问题。文章简述了目前存在的网络安全问题,探讨维护计算机网络安全的重要性,并对如何维护计算机网络安全问题提出合理化建议。  关键词:大数据时代;计算机;网络安全  1 大数据时代下存在的网络安全问题  大数据时代是网络发展的必然结果,互联网如今已经渗透到人们生活的各个方面,
随着社会的发展,各种数字技术已经在各个领域得到了广泛应用。计算机和各种信息技术的使用,能够实现各种文字、图形、声音信息的数字化,这也使得数字媒体获得了全新的发展机遇。文章就数字媒体艺术环境下信息图形化进行具体分析,以供参考。
文章基于SpringBoot开源框架,采用CSS,JavaScript,jQuery,MyBatis,Maven等技术实现辅导班官网的设计与开发。系统主要完成教学资料管理、教学视频观看、在线交流、客服机器人