论文部分内容阅读
随着信息技术的发展,大数据为生活带来便利的同时也造成“信息过载”问题。推荐系统可从用户的历史行为数据中挖掘用户的潜在喜好并推荐令其满意的物品,从而有效解决“信息过载”问题。早期的推荐方法研究主要利用显式反馈数据。然而,这类数据往往需要用户显式地给物品打分,数据成本高、数据量小,影响这类推荐方法在推荐系统中的发挥。因此,近年来关于推荐方法的研究热点逐渐从显式反馈数据转移到大规模的隐式反馈数据中。隐式反馈数据可以直接来源于用户的各种行为,具有成本低、应用广、规模大等优点。
为大规模隐式反馈数据设计一个推荐方法是一个有意义但是更有挑战的问题。在隐式推荐场景中,只能观测到正样本数据,而不能直接观测到负样本数据。因此,隐式推荐方法只能将未观测数据作为负样本信号源来推断用户的兴趣。这导致处理隐式反馈数据相比于显式反馈数据有更多的难点:(1)数据不可靠:隐式推荐中的(伪)负样本,即未观测数据,可能真的是用户兴趣导致的,也可能只是数据随机丢失导致的。这要求推荐方法能够充分、准确地预估不同数据的可靠性和价值,才能有效地分析用户的兴趣。现有的方法主要采用启发式的方式为数据设置可靠性权重,但这往往需要丰富的人工经验和计算资源,同时也不能实现细粒度高精度的设置。(2)数据规模大:隐式反馈数据,特别是其中的未观测数据,在实际应用中很容易达到十亿甚至千亿级别,带来极大的计算负担。这要求推荐方法能够快速高效地处理大规模的隐式反馈数据。现有的方法主要采用随机梯度下降和均匀抽样的方式来加速模型的训练。但这会导致模型学习不稳定、收敛性差,影响推荐效果。总而言之,数据不可靠和数据规模大这两个隐式推荐中的难点并未得到有效地解决,往往成为了现代推荐系统中的效率和性能的瓶颈。
本文将对基于大规模隐式反馈数据的推荐方法展开研究。针对隐式推荐的两个难点以及现有方法的缺陷,研究并解决如下三个重要的关键问题:(1)如何为隐式反馈数据自适应地设置个性化的可靠性权重?(2)如何从大规模的隐式反馈数据中快速高效地训练推荐模型?(3)如何在隐式推荐中同时实现自适应权重设置以及快速高效的训练
本文针对上述关键问题,提出如下4个解决方案:
.为了解决问题(1),本文提出一个基于社交信息的个性化数据权重推断方法SoEXBMF。现实生活中,用户对物品的曝光度(即用户是否知道这个物品)会受到用户好友以及用户社区的影响。因此,SoEXBMF利用社交网络信息来推断造成负样本的原因是用户不知道还是不喜欢这个物品,从而为数据自适应地设置个性化权重,提升推荐效果。
.为了解决问题(2),本文提出了一个面向隐式推荐模型的快速自适应协同抽样方法CoSam。随机梯度下降作为加速模型训练的常用方法,其主要问题在于所采用的均匀抽样器,在隐式推荐中常常会带来收敛性差、稳定性差、精度低等缺点。因此,本文采用了一个新颖的协同抽样模型来快速自适应地抽取重要的训练样本,以及一个整合的“抽样器-推荐器”框架来训练抽样模型和推荐模型。实验论证了CoSam可以有效的提升推荐模型训练的速度和精度。
.为了解决问题(3),本文提出了一个基于社交信息的快速权重推断和抽样方法SamWalker。同时解决隐式推荐中的两个难点,是一个值得研究但有挑战的问题。由于两个难点相互耦合,不能将上述两个解决方案进行简单地组合。为每个数据推断个性化权重会带来效率问题,同时,推断的权重也需要融入到抽样过程中。为了解决这些问题,SamWalker一方面利用图网络来快速自适应地推断数据的可靠性权重,另一方面设计特殊的随机游走算法来快速自适应地抽取可靠性高的数据来学习推荐模型。理论和实验证明了SamWalker可以有效地降低抽样学习的方差,相比于已有的推荐模型有较大的性能提升。
.考虑到社交信息在一些场景中是难以获得的。因此,本文进一步提出了一个不利用任何辅助信息的,快速自适应权重的矩阵分解推荐方法FAWMF来解决问题(3)。FAWMF一方面利用变分自编码器和深度神经网络来自适应地推断数据权重。另一方面针对FAWMF模型的特点,本文也设计一个基于记忆化的快速批梯度计算方法fBGD,来避免使用随机梯度下降和抽样方法带来的性能问题。
为大规模隐式反馈数据设计一个推荐方法是一个有意义但是更有挑战的问题。在隐式推荐场景中,只能观测到正样本数据,而不能直接观测到负样本数据。因此,隐式推荐方法只能将未观测数据作为负样本信号源来推断用户的兴趣。这导致处理隐式反馈数据相比于显式反馈数据有更多的难点:(1)数据不可靠:隐式推荐中的(伪)负样本,即未观测数据,可能真的是用户兴趣导致的,也可能只是数据随机丢失导致的。这要求推荐方法能够充分、准确地预估不同数据的可靠性和价值,才能有效地分析用户的兴趣。现有的方法主要采用启发式的方式为数据设置可靠性权重,但这往往需要丰富的人工经验和计算资源,同时也不能实现细粒度高精度的设置。(2)数据规模大:隐式反馈数据,特别是其中的未观测数据,在实际应用中很容易达到十亿甚至千亿级别,带来极大的计算负担。这要求推荐方法能够快速高效地处理大规模的隐式反馈数据。现有的方法主要采用随机梯度下降和均匀抽样的方式来加速模型的训练。但这会导致模型学习不稳定、收敛性差,影响推荐效果。总而言之,数据不可靠和数据规模大这两个隐式推荐中的难点并未得到有效地解决,往往成为了现代推荐系统中的效率和性能的瓶颈。
本文将对基于大规模隐式反馈数据的推荐方法展开研究。针对隐式推荐的两个难点以及现有方法的缺陷,研究并解决如下三个重要的关键问题:(1)如何为隐式反馈数据自适应地设置个性化的可靠性权重?(2)如何从大规模的隐式反馈数据中快速高效地训练推荐模型?(3)如何在隐式推荐中同时实现自适应权重设置以及快速高效的训练
本文针对上述关键问题,提出如下4个解决方案:
.为了解决问题(1),本文提出一个基于社交信息的个性化数据权重推断方法SoEXBMF。现实生活中,用户对物品的曝光度(即用户是否知道这个物品)会受到用户好友以及用户社区的影响。因此,SoEXBMF利用社交网络信息来推断造成负样本的原因是用户不知道还是不喜欢这个物品,从而为数据自适应地设置个性化权重,提升推荐效果。
.为了解决问题(2),本文提出了一个面向隐式推荐模型的快速自适应协同抽样方法CoSam。随机梯度下降作为加速模型训练的常用方法,其主要问题在于所采用的均匀抽样器,在隐式推荐中常常会带来收敛性差、稳定性差、精度低等缺点。因此,本文采用了一个新颖的协同抽样模型来快速自适应地抽取重要的训练样本,以及一个整合的“抽样器-推荐器”框架来训练抽样模型和推荐模型。实验论证了CoSam可以有效的提升推荐模型训练的速度和精度。
.为了解决问题(3),本文提出了一个基于社交信息的快速权重推断和抽样方法SamWalker。同时解决隐式推荐中的两个难点,是一个值得研究但有挑战的问题。由于两个难点相互耦合,不能将上述两个解决方案进行简单地组合。为每个数据推断个性化权重会带来效率问题,同时,推断的权重也需要融入到抽样过程中。为了解决这些问题,SamWalker一方面利用图网络来快速自适应地推断数据的可靠性权重,另一方面设计特殊的随机游走算法来快速自适应地抽取可靠性高的数据来学习推荐模型。理论和实验证明了SamWalker可以有效地降低抽样学习的方差,相比于已有的推荐模型有较大的性能提升。
.考虑到社交信息在一些场景中是难以获得的。因此,本文进一步提出了一个不利用任何辅助信息的,快速自适应权重的矩阵分解推荐方法FAWMF来解决问题(3)。FAWMF一方面利用变分自编码器和深度神经网络来自适应地推断数据权重。另一方面针对FAWMF模型的特点,本文也设计一个基于记忆化的快速批梯度计算方法fBGD,来避免使用随机梯度下降和抽样方法带来的性能问题。