基于集成学习算法的搜索广告转化率预测应用研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:zgbian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息丰富的互联网环境中,最稀缺的资源就是用户(消费者)的注意力,即流量。搜索广告是广告平台给广告主(商家)提供一种购买用户注意力的机制,让广告主的广告能够触达消费者。搜索广告的转化率(CVR)是广告商品被用户点击后产生购买行为的概率。准确预估转化率,一方面,能够使得广告主匹配到最可能购买自家商品的用户,进而提升广告主的投入产出比(ROI);另一方面,也能让用户快速找到购买意愿最强的商品,从而提升用户在电商平台中的购物体验。如何更好地利用海量交易数据来高效准确地预测用户的购买意向,对有效提升广告主的投入产出比和用户购物体验具有重要的指导意义。基于此方向,本文就国内外文献研究基础上,通过2018年淘宝平台的海量真实交易数据,利用数据挖掘技术基于集成学习算法构建搜索广告转化率预测模型来预估用户的购买意向,本文主要包括特征工程和模型建立两个部分。特征工程部分,主要包括以下两个方面。一方面,数据探索性分析和数据预处理。对数据集进行分布和对比的可视化展现,进行样本数据集结构和规律的探索性分析,为后续选择合适的数据预处理方式以及对搜索广告转化率预测模型的深入业务挖掘提供支持。在数据预处理中,针对不同特征变量的数据结构进行数据缺失、离散化以及标准化等相应的多种处理。另一方面,特征提取。为丰富原始数据集特征,从广告商品信息、用户信息、上下文信息以及店铺信息等原始特征出发提取出基础特征,统计特征以及组合特征。模型建立部分,基于上一步特征工程,利用最终确定的特征变量,分别使用随机森林模型、XGBoost模型、Light GBM模型以及Stacking融合模型进行参数调优和样本训练得到对应的最优模型来对搜索广告转换率进行预测。经过预测能力指标比较分析得出,三个单一模型中,Light GBM的预测效果最好,logloss达到0.08486,AUC值达到0.7088379。进行Stacking模型融合后,相较于预测能力最优的单一模型Light GBM预测能力有明显提升,logloss降低0.081%,AUC值提升2.088%,对搜索广告转化率预测的应用研究有一定的扩展意义。最后,从特征工程的重要性、搜索广告转化率预测模型的对比研究以及深入的业务背景挖掘进行全文总结,达到对用户购买意向深入挖掘目的以及为提升广告主投入产出比提出可行性建议,并对本文的不足之处提出相应的后续研究建议。
其他文献
目的:探讨黄芪治疗溃疡病的分子生物学机制。方法:将72只Wistar大鼠随机分为正常组、黄芪组、洛赛克组、模型组。除正常组外,其他各组采用Okabe乙酸涂抹法制作大鼠实验性胃溃
一、前 言 高温合金是一种能在高温下保持优良的物理和机械性能的材料,尤其是铸造高温合金直接用来生产航空发动机的高温热部件——导向叶片和涡轮叶片。它的质量好坏关系到
基于对江苏国华陈家港发电有限公司(国华港电)超超临界660MW机组微油点火冷态启动过程中蒸汽温度偏高原因的分析,提出了在机组启动初期投入加热器的方案,以提高给水温度,控制
<正>颈椎病是发生在颈段脊柱的慢性疾病,是由于颈椎骨质增生、椎间盘退行性改变以及颈部损伤等原因引起脊柱内、外平衡失调,刺激或压迫神经根、椎动脉、脊髓或交感神经而引起
公证法作为具有社会价值和法治功能的制度,其在现有基础上,能够为维护城乡居民权益、社会秩序发挥出充分的作用,但是内蒙古地区公证工作起步较晚,故其发展中存在着机制不健全
大数据背景下的PBL教学模式突破了传统的教学模式,它是以丰富的网络资源为背景,以建构主义理论为指导,以学生为中心,强调知识的构建过程,目的在于使学生具备自主学习的能力,
<正>《歌舞青春》是迪士尼推出的在美国有线电视台播放的电影。是什么让这部电影成了当红炸子鸡?且看《歌》红透全球的七个理由。理由一主题好在看过一部又一部的"青春残酷物
《在细雨中呼喊》是余华从先锋文学转型到现实主义文学的过渡作品。当先锋形式不足以表现人世戏剧性,也无法回应终极关怀后,余华走向现实乡土人世,从中,他体悟到了生命尊严的