基于XGBoost方法的广告点击率预估研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:zhoubin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,广告变现是互联网公司收入的主要来源之一。互联网领域的领头羊(如谷歌、Facebook、阿里等)已将广告作为公司的核心产业,越来越多的公司意识到技术驱动下的广告投放更具竞争力。广告点击率(Click-Through-Rate,CTR)预估研究的本质是使广告主、广告平台、用户三方利益最大化,即广告主获得高的点击率、广告平台的收益能最大化、用户的满意度增加,因此,增加广告变现的CTR预估研究具有挑战性和重要性。目前,业界所进行的CTR预估任务的研究已相对成熟,但仍存在一些不足之处值得我们深入思考。第一,应用最多的LR模型是大多数公司做CTR预估时的首要选择,这种模型简单易实现,训练速度快,面对亿级别数据也能快速迭代完成,但这种方法学习能力有限,不能提取特征间的非线性关系,需要有计算广告背景的工程师做人工特征组合。第二,随着时间推移,公司业务不断扩展,需要处理的数据量也越来越多,如何利用当前的模型快速的迭代计算CTR值,保证广告投放模块稳定运行,是值得关注的问题。围绕以上问题,本文主要工作如下:(1)针对单一LR模型难以表达特征间非线性关系的问题,本文在该模型的基础上加入了极限梯度提升树模型(eXtreme Gradient Boosting,XGBoost),由于它具有自动构建组合特征、建树过程并行化的优势,因此可用XGBoost特征优化后的输出作为LR迭代计算的输入,这种XGBoost+LR的融合模型通过挖掘特征间隐藏关系,不仅能提高预估精度,还能加快计算速度。(2)针对广告数据量可能发生差异性变化或者业务场景迁移问题,模型的计算环境需要部署为具有较好扩展性、容错性、吞吐量高的分布式计算平台。该平台的主要工作是离线训练点击率预估模型,将训练好的模型更新到线上,再实时计算候选广告库中的CTR值。
其他文献
微信是腾讯旗下的一款语音产品,是当前比较火暴的手机通信软件,支持发送语音短信、视频、图片和文字,可以单聊和群聊。自从“微信支付”开通之后,微信应用于更广阔领域所面临
幔枝构造是近年地学领域的一项创新理论,在指导新一轮地质找矿过程中取得了重大突破。基于“科教融合,培育高端创新人才”这一思路,论文主要阐述了幔枝构造理论的发展历程、
分子医学诊断技术在未来的5至10年内最有希望为改善世界各国、特别是广大发展中国家人们的健康状况做出贡献的关键生物技术.中国科学院人类基因组研究所杨焕明教授等全世界28
《中国人寿保险业经验生命表(2000~2003)》的编制,使得国内寿险市场一下变得热闹起来,其中有关国内寿险产品价格将要随之上涨的说法令消费者尤为敏感。到底什么是新生命表,启
研究矿物的晶体结构与其光学性质之间的关系,这是结构光性矿物学重要的研究内容。如何把矿物晶体结构中原子的性质及相互之间的关系应用到晶体光学中,有效地定量地解释矿物
桥梁是交通运输的咽喉,桥梁事业的稳定发展关系到国家交通事业的发展。目前桥梁下部结构病害问题是影响桥梁施工及使用的关键问题,探索桥梁下部结构事故的预防和治理措施,对
校外实践教学是普通高校社科类专业人才培养的重要教学环节。文章通过对云南农业大学社科类专业校外实践教学发展的梳理和总结,发现在建设应用型社科类专业校外实践教学体系
现有的卷积神经网络方法难以对图像的每个像素进行语义识别,较难从像素层面分解出图像的不同类别。为此,提出一种端到端的全卷积深度网络,以实现高分辨航拍图像像素级的语义分割
一则《水氢发动机在南阳下线,市委书记点赞!》的报道给全民复习了一遍物理、化学知识,能量守恒、催化剂等成为了热词。$$“车辆只需加水就可行驶”“市委书记点赞”等关键词让
报纸
王祖源与《天壤阁丛书》王恒柱王祖源,原名伯濂,字莲塘,山东福山人,道光二年生于一个士宦家庭。其父王兆琛,嘉庆二十二年进士,授编修,官至山西巡抚,有政绩。道光二十九年为御史杨如奏