论文部分内容阅读
在如今信息丰富的互联网环境中,最稀缺的资源就是用户(消费者)的注意力,即流量。搜索广告是广告平台给广告主(商家)提供一种购买用户注意力的机制,让广告主的广告能够触达消费者。搜索广告的转化率(CVR)是广告商品被用户点击后产生购买行为的概率。准确预估转化率,一方面,能够使得广告主匹配到最可能购买自家商品的用户,进而提升广告主的投入产出比(ROI);另一方面,也能让用户快速找到购买意愿最强的商品,从而提升用户在电商平台中的购物体验。如何更好地利用海量交易数据来高效准确地预测用户的购买意向,对有效提升广告主的投入产出比和用户购物体验具有重要的指导意义。基于此方向,本文就国内外文献研究基础上,通过2018年淘宝平台的海量真实交易数据,利用数据挖掘技术基于集成学习算法构建搜索广告转化率预测模型来预估用户的购买意向,本文主要包括特征工程和模型建立两个部分。特征工程部分,主要包括以下两个方面。一方面,数据探索性分析和数据预处理。对数据集进行分布和对比的可视化展现,进行样本数据集结构和规律的探索性分析,为后续选择合适的数据预处理方式以及对搜索广告转化率预测模型的深入业务挖掘提供支持。在数据预处理中,针对不同特征变量的数据结构进行数据缺失、离散化以及标准化等相应的多种处理。另一方面,特征提取。为丰富原始数据集特征,从广告商品信息、用户信息、上下文信息以及店铺信息等原始特征出发提取出基础特征,统计特征以及组合特征。模型建立部分,基于上一步特征工程,利用最终确定的特征变量,分别使用随机森林模型、XGBoost模型、Light GBM模型以及Stacking融合模型进行参数调优和样本训练得到对应的最优模型来对搜索广告转换率进行预测。经过预测能力指标比较分析得出,三个单一模型中,Light GBM的预测效果最好,logloss达到0.08486,AUC值达到0.7088379。进行Stacking模型融合后,相较于预测能力最优的单一模型Light GBM预测能力有明显提升,logloss降低0.081%,AUC值提升2.088%,对搜索广告转化率预测的应用研究有一定的扩展意义。最后,从特征工程的重要性、搜索广告转化率预测模型的对比研究以及深入的业务背景挖掘进行全文总结,达到对用户购买意向深入挖掘目的以及为提升广告主投入产出比提出可行性建议,并对本文的不足之处提出相应的后续研究建议。