论文部分内容阅读
用户冷启动是推荐系统的一个重要问题,传统的推荐系统使用迁移学习的方法来解决这个问题,迁移学习是指利用信息丰富领域的知识解决信息稀少领域的数据稀疏问题,将迁移学习和推荐系统相结合是指利用评分信息丰富的领域的知识预测另外一个领域的用户对物品评分。上述迁移学习模型假设两个领域没有重叠的用户和物品,如果两个领域没有共同的标签信息,则利用评分较为丰富的领域获取用户群和物品群之间的关系,然后将该关系迁移到评分稀少的领域中,解决评分稀少领域中的数据稀疏问题,如果两个领域有共同的标签信息,则利用评分丰富的领域获取标签的隐含特征,然后将标签的隐含特征迁移到评分稀少领域中,解决数据稀疏问题。 与上述假设不同,很多情况下系统可以获取同一用户在不同领域的数据。针对这种数据,提出一种新的推荐系统冷启动模型-crossSVD&GBDT(CSGT),通过有效利用重叠用户的信息来解决用户冷启动问题。具体地,首先提出新模型获取用户和物品的隐含特征,然后利用用户和物品的一部分隐含特征构造训练集,最后利用GBDT模型进行训练,并利用训练后的模型预测结果。实验数据表明,在豆瓣数据集中corssSVD&GBDT可以得到比传统方法性能更高,鲁棒性更强的实验结果,尤其是MAE的评价指标高出一般方法很多。本文将该模型实现成一个自动化工具,用户只需输入定义好的训练集格式和参数,即可得到预测集的结果。最后本文描述了进一步的研究,在当前数据的基础上,引入物品标签信息,利用两个领域重叠的用户和标签解决数据稀疏领域中的用户冷启动问题。