论文部分内容阅读
在早期的互联网时代,分类索引可以有效地帮助用户找到需要的信息。随着互联网数据的不断增加,分类索引难以囊括所有数据,搜索引擎的出现解决了这一瓶颈。在互联网数据爆发的今天,各个领域的数据逐步过载,受限于关键词的搜索引擎也难以应对用户日益增长的个性化需求,诸如“最好听”一类难以被量化的关键词,往往得到近乎广告的搜索结果。在这样的背景下,推荐系统得到了广泛的研究和使用。推荐算法是推荐系统的灵魂,常规的推荐算法从实时性的角度可以分为在线推荐和离线推荐。离线推荐是在线推荐的数据基础,在线推荐是离线推荐的进一步应用。离线推荐从提取用户和物品特征的角度入手,可以有效提升推荐准确率,离线数据比较稳定,易于建模和评估。但离线计算一般需要较长的运行时间,这段空闲期如果置之不理,会出现“兴趣漂移”问题,这时就需要在线计算来进行弥补。在线计算可以在离线计算的基础上调节推荐结果,有效缓解“兴趣漂移”问题,维持离线计算的推荐准确率。本论文从离线推荐和在线推荐两个方面进行了研究,主要包括:1)对传统基于物品协同过滤算法进行分布式改进,通过对分布式计算框架Dpark的性能验证实验和分布式内存数据库Beans DB的特点分析,提出了基于Dpark的数据关系提取方案和基于Beans DB的矩阵存储方案。2)在离线计算上,提出了加强“个性化特征”的引入用户追新度和物品流行度(由于实验采用的是公开音乐数据集,在本论文中主要讨论“音乐流行度”,正文将直接采用“音乐流行度”这一说法)的离线推荐算法。分别对用户追新度和物品流行度的定义和依据进行了说明,并基于两个度量提出了改进的推荐模型,详细解读了模型的原理,并在实现算法之后,与基于物品协同过滤算法进行了详细的性能对比分析。3)在在线计算上,具体描述了离线计算中存在的“兴趣漂移”现象和常规的缓解方法,然后提出了引入“类博弈思想”的在线推荐算法,通过结合离线推荐算法的推荐结果,在系统和用户的交互过程中,进行在线推荐,有效缓解了离线推荐中存在的“兴趣漂移”问题,提升了推荐算法的实时性和灵活性,并提出了一种可行的实现类博弈思想的算法流程,对实验结果进行了展示和分析。4)提出了一种基于RESTful Web Service的个性化音乐推荐系统的整体架构,实现了算法理论与实际系统的对接,介绍了基础的服务端接口,并对网站端和移动端进行了结果展示,为将本论文提出的推荐算法应用到实际系统提供了一条可行的技术路线。