论文部分内容阅读
随着移动互联网时代的到来,电子商务呈现爆发式的增长,越来越多的人通过网络购买自己心仪的商品。由于摆脱了传统货架空间的限制,像亚马逊、天猫、京东等B2C电商平台可以将海量的商品呈现给用户,满足人们日益增长的不同需求。然而,海量的商品同时也意味着艰难的选择,为了帮助用户快速的找到自己感兴趣的商品,帮助商家快速获取自己的目标用户,促进平台整体成交量的提升,推荐系统成为实现用户、商家和电商平台三方共赢的不二选择。 本文主要研究如何根据用户的需求实现个性化广告推荐的问题。针对现有的推荐系统存在的资源消耗过大、用户体验较差的问题,本文提出了一种基于商品类目的个性化广告推荐方案,该方案通过挖掘用户在购物网站上的点击日志,构建模型去预测用户近期的商品品类偏好,并以此为基础提供营销服务,满足了不同营销主体在不同场景的营销需求。利用阿里巴巴的真实电商数据,论文从特征构建和推荐模型优化两方面展开研究,给出了该推荐方案的系统原型。 特征构建过程首先对原始的用户点击日志进行了详细分析,合理的划分出了训练集、测试集和验证集;接着基于对数据和营销业务的理解,从用户、类目和用户类目对三个维度设计和构建了大量的原创性特征,全方位细化了用户和商品品类间的联系,大大减少了从原始数据到特征向量过程中的信息损失;最后借助 MapReduce并行计算框架,编写了大量的特征提取代码,完成了特征的流式提取,为后续的推荐模型构建与优化提供了良好的数据基础。 推荐模型优化研究首先以 XGBoost模型为基准模型,采用网格搜索和贪心策略相结合的超参数优化方案,获取了一个性能优异的推荐模型;接着针对特征数量较多,特征冗余明显的问题,提出了一种基于频繁特征对的特征选择算法,通过挖掘决策树从根节点到叶子节点的特征链路,获取频繁特征对,并以此度量特征重要性,实现了在保证模型分类性能前提下的快速降维,极大的减少了推荐模型训练、预测的计算资源消耗;最后,构建了一种多模型融合方案,将逻辑回归、极端随机树、随机森林、GBDT和XGBoost等模型的预测值作为特征,并结合特征选择算法获取的重要特征,再次使用 XGBoost算法构建复合模型,不仅在原来单模型的基础上进一步提升了分类性能,还大大增强了模型的泛化能力。