论文部分内容阅读
互联网信息的飞速发展和音频视频压缩等技术的出现,使得数以亿计的用户可以访问各式各样的资源。在信息爆炸的时代,内容提供商需要解决如何有效地向用户推送符合用户喜好信息的问题,推荐系统因此应运而生。推荐系统是一种信息过滤系统,通过从大量数据集中过滤多余信息的方法,利用算法精确定位用户的偏向喜好,向目标用户推荐其可能喜欢的新的相关内容。其中,推荐系统的一个重要应用就是音乐推荐系统。推送的结果好坏不仅决定了用户使用体验度,也是衡量一个音乐资源提供商实力的标准,并且也很大程度地推动了音乐文化的发展。现有的音乐推荐系统方法还过于单一,收集的大量用户行为数据的价值没有被充分挖掘利用,推荐效果还有待提升。另外每个音乐用户都有属于自己的私人歌单,歌单中的歌曲呈顺序排列,如何把这种上下文关系与推荐算法结合起来也是一个有待解决的问题。机器学习是一门近几年来研究的热点,在银行、保险、交通、生物、医学等领域有着十分广泛的应用。而将机器学习算法应用到音乐推荐领域可以充分地挖掘数据价值,更好地为用户提供服务,提升平台实力,推动音乐文化的发展。机器学习算法种类繁多,不同的算法在不同的数据集上的效果不相同,对不同的算法的优缺点进行对比分析,完善现有音乐推荐系统是非常重要的事情。本文结合目前国内外的研究成果,分类概述了目前几种主流的音乐推荐方法:基于内容和协同过滤推荐,以及两者的加权混合模型。本文对Spotify提供的音乐数据集进行研究,用Word2vec编码方式代替One-hot编码,建立了歌曲之间的上下文联系并解决了维度过高的问题,用XGBoost对特征权重进行选择,对特征进行分类,对比各种加权方法的优劣,通过协同过滤算法,XGBoost模型、LightGBM模型和基于Word2vec特征的组合模型对用户是否会在接下来30天内再次听目标歌曲进行预测,从衡量推荐准确度的评价指标AUC入手,对预测结果进行分析评价,对比评估本文提出的新的预测方法在用户是否会再次听歌问题上的预测性能。实验结果证明,基于Word2vec特征的组合模型预测方法预测准确度高,能够更好地利用类别信息,有效提高预测模型的鲁棒性以及弥补了机器学习技术在音乐推荐领域的应用不深的状况,这是一种非常适合用于音乐推荐相关问题的方法。