论文部分内容阅读
推荐系统已经成为了一个很重要的研究领域从上世纪九十年代中期协同过滤的出现,过去二十年来学术界和工业界提出了很多方法来构建推荐系统。由于其给用户提供的个性化推荐,内容和服务如此重要,使得推荐系统一直处于比较热门的领域。当前的推荐系统方法主要分为三大类:基于内容的推荐,协同过滤,混合推荐算法。本文提出了一种基于标签、时序和用户历史点击的张量分解推荐算法,结合了时序模型和用户历史操作信息,运用张量分解进行推荐。推荐系统有很多应用,比如亚马逊等电子商务网站可以利用推荐系统向用户推荐可能想买的书籍,CD等物品,youtube,netflix等视频电影网站可以向用户推荐其可能感兴趣的电影视频等,淘宝,京东等购物网站可以利用推荐系统向买家推荐其可能想购买的商品等,google,百度等搜索引擎公司可以利用推荐系统向使用者推荐其可能需要的服务信息。尽管推荐系统发展了这么久,当前的推荐算法仍然需要改进来满足更准确更有效的推荐需求。由于信息的爆炸,目前服务提供商能收集到的信息越来越丰富,继而带来的是数据集体积和维度的剧增,应用特征选择和张量分解能很好的解决数据集的高维度信息,而随机梯度下降等方法能很好的解决数据集体积庞大导致的内存不够用,模型训练时间长等问题。添加时序模型能够捕捉用户特征随着时间变化的信息,用户历史信息能够给模型提供一些很重要的辅助。模型的融合能够兼顾各个模型的优点,提高整体模型的泛化效果。本文提出的基于标签、时序和用户历史点击的张量分解推荐算法,应用张量分解对数据进行了降维和隐性关系挖掘,添加时序模型捕捉了用户购买商品随着时间变化的特征,结合用户历史操作加入了用户历史的强偏好信息,进一步改善了模型,矩阵化梯度下降改善了模型训练效率,添加L2,1和L1结合的正则项提高了模型的泛化效果,最后进行的模型集成综合了各个基线模型的结果,进一步提高了模型的表现。最后,将本文的TBTFD模型与各个模型进行融合,融合后的模型吸取各个单独模型的优点,从而使得模型的表达效果和泛化效果更好。但是,响应的也提高了模型训练所花费的时间等。本文通过网格搜索进行调参,得到了AUC,Rmse随迭代次数,特征个数,学习率等的变化情况,根据变化图得到了相应参数的最优值。最后,将本文的TBTFD模型,融合后的ensemble模型与LR,bayes,随机森林,GB,knn等模型的ROC及AUC图进行对比,得出了TBTFD模型比这些对比模型效果更佳,融合的ensemble模型效果最好的结论。