论文部分内容阅读
广告是互联网公司的主要收入来源,互联网技术的快速发展以及数据量的增长,为优化广告投放提供了基础。对广告的点击率预测有利于精准定位相应用户集合,匹配最佳的投放组合。然而目前的点击率预测算法准确率较低,广告点击率预测效果的提升能给互联网公司带来更多的商业效益。在广告点击数据中,存在类别不平衡的问题,往往只有小部分广告点击较高,大部分点击很少,甚至不会被点击,数据的不平衡已经严重影响了模型的预测效果。再者,目前在互联网公司用得比较多的是基于单模型的点击率预测算法,单模型对预测效果提升有限,并且需要人工提取大量特征,时间成本很高。针对这些问题,本文从以下三方面进行了研究提升预测准确率:第一,对广告数据分布情况进行分析,发现在广告点击数据中广告种类存在长尾问题,通过引入LS-PLM算法的分片思想,用分片线性的模式来拟合高维空间的非线性分类面,把数据划分到不同的特征空间分别训练和预测,使模型能够更有效的提取特征之间的关系。第二,研究传统的单模型浅层学习算法和浅层学习集成算法原理和特点,在此基础上进行改进。改进算法综合了XGBOOST等森林模型和FM模型的优点,通过级联的方式构建TREE子网络和FM子网络,充分挖掘特征之间的浅层非线性关系,提高了点击率预测效果。第三,研究了广告点击率预测中基于浅层学习和深度学习集成的算法。WIDE&DEEP是GOOGLE提出的一种基于线性模型和深度学习的集成预测模型,本文结合之前对于浅层学习的研究,对WIDE&DEEP改进得到集成模型TDNN。该模型利用浅层学习网络TREE-FM提取特征之间的低阶非线性关系,深度学习网络提取高阶非线性关系,将浅层学习输出与深度学习输出拼接,综合两者提取的有效信息预测,进一步提高了准确率。实验结果表明,通过解决广告长尾问题,点击率预测准确率有了较大幅度的提升;相较于逻辑回归、FM等单模型算法,浅层学习集成算法TREE-FM准确率和AUC均有较大提升。而改进的集成算法TDNN相较于传统模型准确率提高最大,达到近5个百分点,AUC值提高了1~3个百分点。