数据数量与质量敏感的推荐系统若干问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：leonoox

【摘要】

：

随着互联网特别是移动互联网数据的持续爆炸式增长,信息过载现象越来越严重,使得用户从海量数据中找到真正感兴趣的信息的代价越来越高。为了解决这一问题,个性化推荐系统应

【作者】

：

于鹏华

【出处】

：

浙江大学

【发表日期】

：

2016年期

【关键词】

：

推荐系统数据数量数据质量推荐算法推荐性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网特别是移动互联网数据的持续爆炸式增长,信息过载现象越来越严重,使得用户从海量数据中找到真正感兴趣的信息的代价越来越高。为了解决这一问题,个性化推荐系统应运而生。推荐系统通过挖掘用户的历史行为数据对其兴趣和偏好进行建模,从而可以帮助用户快速地发现其可能感兴趣的、有价值的信息。在过去的二十多年里,推荐系统得到了学术界和工业界的极大关注,已经被广泛应用于包括电子商务、社交网站、影视娱乐、在线阅读、网络课程学习等在内的不同应用领域,相关的推荐技术也在不断地发展和演进。时至今日,许多研究学者仍然致力于设计更高效、更有效、更普适的推荐算法。现有的推荐算法通常将收集到的所有用户行为数据不加处理或简单地进行预处理后就作为算法的输入进行统一的推荐建模。然而,在真实应用的推荐系统中,不同用户的行为数据在数量和质量方面都会呈现出不同程度的差异性。系统中往往同时存在行为数据稀少的"冷启动"用户和行为数据丰富的活跃用户,与此同时,不同用户的行为数据中也会存在不同程度的噪声数据。对这些数量和质量存在显著差异的用户进行统一的推荐建模,一方面会因为无法同时涵盖不同特点的数据而降低推荐算法的准确性,另一方面,随着系统中用户行为数据的不断累积,将收集到的所有数据用来建模也会带来很高的计算代价。因此,敏感地捕捉并建模用户行为数据数量和质量差异性的数据数量和质量敏感的推荐方法的研究,对大数据环境下的推荐系统具有非常重要的理论与应用价值。本文围绕数据数量与质量敏感的推荐系统的若干问题展开研究,主要工作包括:1)提出了一种数据数量敏感的推荐方法针对不同用户在行为数据数量方面存在的差异,研究用户行为数据的数量对不同推荐算法的影响,表明将用户(尤其是活跃用户)的所有行为数据用于推荐建模是没有必要的。然后,从机器学习的角度出发剖析了需要多少用户行为数据进行建模就足以产生有效的推荐。最后,提出一系列用户行为数据的抽样方法来选择适量的、有代表性的用户行为数据进行数据数量敏感的推荐建模。实验结果表明,该方法在总体上提升了推荐的准确性并降低了计算代价。2)提出了一种基于用户行为一致性的分组迁移推荐方法针对不同用户的行为数据存在不同程度的噪声数据的现象,引入"用户行为一致性"的概念来衡量用户行为数据中含有噪声数据的程度,进而提出了一种基于用户行为一致性的分组迁移推荐方法。在该方法中,首先,基于用户行为一致性将用户进行分组。然后,对不同分组的用户行为数据所构成的数据子集进行有针对性的噪声处理和推荐建模。最后,借助迁移学习技术实现高质量数据子集对低质量数据子集的辅助建模。实验结果表明,该方法对低质量数据分组的推荐性能有显著的提升,进而提升了整体的推荐性能。3)提出了一种基于语义可比物品对的排序推荐方法BPR(Bayesian Personalized Ranking)是解决单类协同过滤问题的主流算法框架,在隐式反馈推荐中得到了广泛的应用。然而,BPR会选择没有意义的噪声物品对数据进行建模而降低了模型的准确性和收敛速度。针对这些问题,本文提出了"语义可比物品对"的概念,并因此提出了一种基于语义可比物品对的排序推荐算法(Semantic enhanced BPR,SeBPR)。该方法通过物品内容信息学习物品的语义向量,进而选择语义可比较的、高质量的物品对参与模型训练。实验表明,SeBPR可以利用相对较少的物品对得到快速收敛的、稳定的模型。4)提出了一种数据数量和质量敏感的推荐框架在上述研究工作的基础上,本文进一步提出了一种数据数量和质量敏感的推荐框架,以解决现有推荐算法没有充分考虑用户行为数据在数量和质量方面差异性的问题。该框架包括对用户行为数据的数量和质量的度量、基于数据数量和质量度量的用户分组、对不同分组的数据子集有针对性的数据预处理(数据抽样处理和噪声数据处理)和推荐建模以及分组模型的迁移学习。实验结果表明,该推荐框架可以提高不同算法在评分预测和TopN推荐问题上的推荐性能。

其他文献

飞机制造业大型共性支撑平台的技术方向

阐述了产品生命周期管理(PLM)的内涵和实质,并以国防科工委组织实施的"飞机制造业数字化工程"为背景,分析了目前我国飞机制造业对产品生命周期管理的需求,提出了国产的飞机制

期刊

PLM支撑平台CAD/CAMPDM

浅论高职学生学习动机的引导

加强学风建设，是高职院校实现可持续发展的永恒主题。要加强高职学生学风建设，就应该在明确学风内涵的基础上，研究影响高职学生学习动机的主要因素，抓住问题的实质，并通过对核心问

期刊

高职学生动机因素引导

基于改进的BP神经网络的网络空间态势感知系统安全评估

文中利用BP神经网络算法建立了网络态势感知等级与感知参数之间的关系,定量评估了态势感知状况。神经网络在这一领域的研究最为成熟,但传统的BP神经网络算法在反馈误差方面速

期刊

BP神经网络网络安全态势感知评估指标体系

生命形象的动态展示——海阳渔民祭海活动寻根

祭祀活动，起源于人类远古生命“交感”，以礼制流通于封建社会。古人通过祭神灵于坛，在乐舞形律场性动态交流展示过程中，实现身心与自然及先祖神性信息交互感应，达到为生命平安，宗族

期刊

沿海渔民秧歌队祭祀活动生命情感海阳大秧歌动态展示

人神之间:胶东渔民祭海仪式的象征意义阐释

海神崇拜是胶东沿海渔民的民间信仰，祭海仪式在海神信仰中最具象征意义，是渔捕文化的特殊形态。它探讨了胶东渔民信仰的四类海神及具有代表性的三种祭海仪式且运用仪式与象征理

会议

仪式与象征海神信仰祭海仪式象征意义

商鞅法治思想对当前“依法治国”的启示

商鞅法治思想是法家思想流派中"法治"派的典型代表,商鞅主张将国家生活的各个领域都纳入到法治的轨道,严格依法治国,崇尚法律在国家治理中的至高无上的地位。他这种超越时代

期刊

依法治国商鞅法治派法家思想

基于模糊神经网络的机械加工参数自动选择研究

利用模糊神经网络的推理和学习能力，在对机械加工过程中的切削参数进行自动选择的基础上，研究了一套基于机械加工参数自动选择的数控编程系统。运用VC＋＋开发的系统实现了网络参数

期刊

模糊神经网络机械加工参数选择数控

破坏性领导对下属绩效的影响研究——基于上下属关系的中介作用

对191名企业员工进行问卷调查获得的数据基础上基于上下属关系的中介作用探讨了破坏性领导对下属绩效的影响效应。研究表明:破坏性领导对下属的工作绩效和职外绩效都具有显著

期刊

破坏性领导上下属关系工作绩效职外绩效

虚拟专用终端体系结构及若干关键技术研究

随着互联网时代的蓬勃发展,虽然几乎每个人都拥有一台专用电脑或智能手机,但是诸如机场、酒店、网吧等公共场所提供顾客使用的公用计算机,由于其分布广、计算性能高、显示屏

学位

可信计算隐私保护数据封装键盘保护远程认证平台属性

广佛同城势在必行

广州和佛山两座城市，历史同根，文化同源，地域相连，人缘相亲，经济互补，民间热盼。国务院把广佛同城由区域合作上升为国家战略，反映了历史的必然，时代的趋势，市民的心声。广佛同城化加速

期刊

广佛同城历史文化地域人缘产业结构市民心声

数据数量与质量敏感的推荐系统若干问题研究

与本文相关的学术论文