基于多模型集成的广告点击率预测研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zhouxifengli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告是互联网公司的主要收入来源,互联网技术的快速发展以及数据量的增长,为优化广告投放提供了基础。对广告的点击率预测有利于精准定位相应用户集合,匹配最佳的投放组合。然而目前的点击率预测算法准确率较低,广告点击率预测效果的提升能给互联网公司带来更多的商业效益。在广告点击数据中,存在类别不平衡的问题,往往只有小部分广告点击较高,大部分点击很少,甚至不会被点击,数据的不平衡已经严重影响了模型的预测效果。再者,目前在互联网公司用得比较多的是基于单模型的点击率预测算法,单模型对预测效果提升有限,并且需要人工提取大量特征,时间成本很高。针对这些问题,本文从以下三方面进行了研究提升预测准确率:第一,对广告数据分布情况进行分析,发现在广告点击数据中广告种类存在长尾问题,通过引入LS-PLM算法的分片思想,用分片线性的模式来拟合高维空间的非线性分类面,把数据划分到不同的特征空间分别训练和预测,使模型能够更有效的提取特征之间的关系。第二,研究传统的单模型浅层学习算法和浅层学习集成算法原理和特点,在此基础上进行改进。改进算法综合了XGBOOST等森林模型和FM模型的优点,通过级联的方式构建TREE子网络和FM子网络,充分挖掘特征之间的浅层非线性关系,提高了点击率预测效果。第三,研究了广告点击率预测中基于浅层学习和深度学习集成的算法。WIDE&DEEP是GOOGLE提出的一种基于线性模型和深度学习的集成预测模型,本文结合之前对于浅层学习的研究,对WIDE&DEEP改进得到集成模型TDNN。该模型利用浅层学习网络TREE-FM提取特征之间的低阶非线性关系,深度学习网络提取高阶非线性关系,将浅层学习输出与深度学习输出拼接,综合两者提取的有效信息预测,进一步提高了准确率。实验结果表明,通过解决广告长尾问题,点击率预测准确率有了较大幅度的提升;相较于逻辑回归、FM等单模型算法,浅层学习集成算法TREE-FM准确率和AUC均有较大提升。而改进的集成算法TDNN相较于传统模型准确率提高最大,达到近5个百分点,AUC值提高了1~3个百分点。
其他文献
青年白领人群在我国社会发展中扮演着重要的角色,但由于他们工作和生活的特性,使得不少人有着不同程度的健康问题。体育健身能够有效改善人们的健康状况,这已经成为大众的共
本文以汽车电子零部件行业的MES为例,结合某型号汽车仪表生产线中的实例应用,介绍了该软件的功能、原理、逻辑和架构等,可以给智慧工厂、数字工厂等架构搭建提供技术参考。
目的:1.比较呼吸道合胞病毒(respiratory syncytial virus,RSV)感染引起的毛细支气管炎患儿和健康患儿体内血清维生素E(Vitamin E,VE)水平,探讨VE水平是否会影响毛细支气管炎的发病率。2.对两组毛细支气管炎患儿应用不同的治疗措施,比较临床症状缓解时间、平均住院日、呼出气一氧化氮(Fractional exhaled nitric oxide,FeNO)变化来