论文部分内容阅读
随着互联网特别是移动互联网数据的持续爆炸式增长,信息过载现象越来越严重,使得用户从海量数据中找到真正感兴趣的信息的代价越来越高。为了解决这一问题,个性化推荐系统应运而生。推荐系统通过挖掘用户的历史行为数据对其兴趣和偏好进行建模,从而可以帮助用户快速地发现其可能感兴趣的、有价值的信息。在过去的二十多年里,推荐系统得到了学术界和工业界的极大关注,已经被广泛应用于包括电子商务、社交网站、影视娱乐、在线阅读、网络课程学习等在内的不同应用领域,相关的推荐技术也在不断地发展和演进。时至今日,许多研究学者仍然致力于设计更高效、更有效、更普适的推荐算法。现有的推荐算法通常将收集到的所有用户行为数据不加处理或简单地进行预处理后就作为算法的输入进行统一的推荐建模。然而,在真实应用的推荐系统中,不同用户的行为数据在数量和质量方面都会呈现出不同程度的差异性。系统中往往同时存在行为数据稀少的"冷启动"用户和行为数据丰富的活跃用户,与此同时,不同用户的行为数据中也会存在不同程度的噪声数据。对这些数量和质量存在显著差异的用户进行统一的推荐建模,一方面会因为无法同时涵盖不同特点的数据而降低推荐算法的准确性,另一方面,随着系统中用户行为数据的不断累积,将收集到的所有数据用来建模也会带来很高的计算代价。因此,敏感地捕捉并建模用户行为数据数量和质量差异性的数据数量和质量敏感的推荐方法的研究,对大数据环境下的推荐系统具有非常重要的理论与应用价值。本文围绕数据数量与质量敏感的推荐系统的若干问题展开研究,主要工作包括:1)提出了一种数据数量敏感的推荐方法针对不同用户在行为数据数量方面存在的差异,研究用户行为数据的数量对不同推荐算法的影响,表明将用户(尤其是活跃用户)的所有行为数据用于推荐建模是没有必要的。然后,从机器学习的角度出发剖析了需要多少用户行为数据进行建模就足以产生有效的推荐。最后,提出一系列用户行为数据的抽样方法来选择适量的、有代表性的用户行为数据进行数据数量敏感的推荐建模。实验结果表明,该方法在总体上提升了推荐的准确性并降低了计算代价。2)提出了一种基于用户行为一致性的分组迁移推荐方法针对不同用户的行为数据存在不同程度的噪声数据的现象,引入"用户行为一致性"的概念来衡量用户行为数据中含有噪声数据的程度,进而提出了一种基于用户行为一致性的分组迁移推荐方法。在该方法中,首先,基于用户行为一致性将用户进行分组。然后,对不同分组的用户行为数据所构成的数据子集进行有针对性的噪声处理和推荐建模。最后,借助迁移学习技术实现高质量数据子集对低质量数据子集的辅助建模。实验结果表明,该方法对低质量数据分组的推荐性能有显著的提升,进而提升了整体的推荐性能。3)提出了一种基于语义可比物品对的排序推荐方法BPR(Bayesian Personalized Ranking)是解决单类协同过滤问题的主流算法框架,在隐式反馈推荐中得到了广泛的应用。然而,BPR会选择没有意义的噪声物品对数据进行建模而降低了模型的准确性和收敛速度。针对这些问题,本文提出了"语义可比物品对"的概念,并因此提出了一种基于语义可比物品对的排序推荐算法(Semantic enhanced BPR,SeBPR)。该方法通过物品内容信息学习物品的语义向量,进而选择语义可比较的、高质量的物品对参与模型训练。实验表明,SeBPR可以利用相对较少的物品对得到快速收敛的、稳定的模型。4)提出了一种数据数量和质量敏感的推荐框架在上述研究工作的基础上,本文进一步提出了一种数据数量和质量敏感的推荐框架,以解决现有推荐算法没有充分考虑用户行为数据在数量和质量方面差异性的问题。该框架包括对用户行为数据的数量和质量的度量、基于数据数量和质量度量的用户分组、对不同分组的数据子集有针对性的数据预处理(数据抽样处理和噪声数据处理)和推荐建模以及分组模型的迁移学习。实验结果表明,该推荐框架可以提高不同算法在评分预测和TopN推荐问题上的推荐性能。