基于FM的深度学习模型的在线广告点击率预测研究

来源 :上海师范大学 | 被引量 : 1次 | 上传用户:keyina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算广告中,预测用户是否会点击某个广告是一类非常重要的机器学习问题。提高广告点击率预测的准确率,对用户进行个性化推荐,一方面可以解决用户在“信息过载”的情况下高效获得感兴趣信息的问题,挖掘用户的潜在需求,另一方面能增加平台和广告主的收益。在大数据时代下,互联网平台需要有效地利用平台积累的大量用户历史行为数据,从而实现对广告点击率的精准预估。然而,在使用海量的数据进行广告点击率预测时,存在着诸多难题,点击率预估成为一个非常重要的研究课题。基于此方向,本文在国内外文献研究基础上,通过2020年华为平台提供的海量广告点击率数据,基于GBDT+Deep FM模型构建在线广告点击率预测模型,预估用户点击广告的概率,从理论和实践两个方面验证模型的可行性。本文的重点主要从以下四个方面展开:1.在数据处理部分,基于本文的在线广告点击率数据集,进行数据的探索和可视化实现,针对不同的特征变量进行数据缺失和编码处理。在特征工程中,通过对实际业务背景的理解构建了合理的特征工程框架,其中基本统计特征30个,曝光量特征15个,历史点击率特征22个,共计102个特征作为在线广告点击率预测模型的特征变量。2.在模型构建部分,针对目前广告点击率预测存在的问题和点击率数据集高维稀疏的特点,本文提出GBDT+Deep FM模型用于在线广告点击率预测,介绍了模型的原理和创新性,可同时满足记忆与泛化的需求。3.在预测结果部分,本文通过设置不同的超参数,对比分析了超参数的不同取值对模型点击率预估结果的影响,进而得到最优超参数。通过对比是否进行特征工程的模型预测结果,本文的特征工程提升了在线广告点击率预测的准确率。为了深入挖掘业务数据,使用GBDT模型筛选出影响在线广告点击率预测的前十个重要特征。4.在模型对比部分,GBDT+Deep FM模型分别与传统机器学习模型(LR、FM、GBDT、GBDT+LR)、深度学习模型(FNN、NFM、Wide&Deep、Deep FM)进行点击率预测效果的对比。实验结果显示,GBDT+Deep FM模型预测结果的AUC值为0.7377,Log Loss值为0.3123。GBDT+Deep FM模型与其他模型相比,在AUC值上可以提升0.04%-7.5%,能够有效地提升在线广告点击率预测的准确性。
其他文献
近年来,家电制造业竞争日趋激烈。一方面,家用电器制造业在国内市场自改革开放之初起步至今,已从行业的高速增长期步入了行业周期的下行阶段;另一方面,小米等互联网企业开始陆续进入智能家居领域,对传统家电行业发起了围攻。康佳集团作为我国家电行业知名品牌,也在积极谋求战略转型,进军环保、半导体等领域,并在增长疲软的家电行业中,实现了营业收入逆势增长,业务发展有一定的改善。但这只是转型发展的初期成果,战略转型
学位
科创板是我国资本市场发展史上浓墨重彩的一笔,是我国资本市场改革开放、不断迈向成熟的重要标志。科创板的开板、注册制的实行,意味着市场化的定价方式与更自由的市场,是实现资本市场更好服务于实体经济的必要一环,而这一切建立在价格机制良好有序的前提下。相较于西方成熟资本市场,我国市场各参与方相对来说并不成熟,投机氛围更为浓厚,加诸科创板本身开板未久,对于适用于科创板、行之有效的估值方法的需求逐渐展现。随着我
随着二期课改的不断深入,赏识教育、正面教育等不断涌现,表扬孩子的教育方式被广大教师接受与采纳,应用于日常教学中。而教师表扬的使用一直是国内外研究的话题,虽然相关研究众多,但研究结果依然存在很大分歧,比如:表扬类型的区分维度、不同类型的表扬对儿童动机的影响等。其中Dweck等人(1998)研究表明受到过程表扬的儿童相对于受到个人表扬的儿童表现出更高的坚持性,更乐意参与探索活动。本研究先探究教师的表扬
猪流感(Swine Influenza Virus,SIV)是规模化养猪场群发性疫病之一,在生产与实验室条件下,单纯感染SIV的猪只仅表现轻微的临床症状,表现为发烧、咳嗽、打喷嚏、流鼻涕、高发
本文选取“V起来”和“V上来”作为比较研究对象,“V起来”和V上来”是现代汉语中使用频率很高的两个动趋式结构,语义上存在一定的相似性,非汉语母语者使用时会产生误代偏误。首先在前人研究的基础上,结合大量的语料,采用描写与解释相结合的方法,从语义的角度全面分析“V起来”和“V上来”,总结其语义特征,比较二者的异同点。“起来”有四种语法意义,而“上来”只有趋向意义和结果意义。接着对“起来”和“上来”的偏
学位
股票价格波动规律的分类和预测是股票市场研究中一个非常重要的问题,如何刻画和预测股票价格模式的波动己经成为金融研究领域国内外诸多学者关注的热点问题之一。股市中的复杂网络和股价波动模式预测是股价研究中的重要问题。先前的研究使用单个股票的历史信息来预测股票价格的未来趋势,而很少考虑同一市场中股票之间的联动。本文提取有关联的股票的信息进行预测,使用复杂网络与深度学习相结合的方式预测股票价格模式。使用我国股
大肠杆菌O157:H7(E.coli O157:H7)在自然界广泛存在。随着畜禽集约化养殖模式的不断发展,畜禽感染E.coli O157:H7非常普遍,这给畜禽养殖业带来了较大的经济损失。大肠杆菌多宿主、多途径传播等一些特点,导致E.coli O157:H7感染已成为一个全球性的公共卫生问题。脱氢表雄酮(Dehydroepiandrosterone,DHEA)作为机体血液循环中含量最丰富的类固醇物
当今,精确模拟资产价格行为仍然是金融研究中的一个重要问题。当非正常事件或者冲击频繁出现时,资产价格会有大幅度、不连续的波动,金融市场波动对市场参与者来说是一种风险,所以我们选取能够精准刻画股价跳跃行为的模型,通过构建模型来估计风险价值(VaR)的准确性具有重要意义。在计算VaR时,经常会采用一些参数方法、非参数方法等,但这些方法并没有考虑到收益率分布的尾部特征。本文通过构建GARCHJump类模型
英文绘本作为一种儿童读物,凭借图文并茂的特点吸引了众多读者,并且得到了教育者的重视,教育者们认识到英文绘本自身的教学价值和教育内涵,纷纷开展了理论研究和教学实践。因此,越来越多的英语教师在教学实践中尝试构建融合英文绘本的英语课堂,既能调动学生学习英语的积极性又能提高英语课堂的教学效果和学习效果。本研究以克拉申的语言输入假说和皮亚杰的认知发展理论为理论基础,尝试探究应用英文绘本于小学英语语音教学的有
学位
学位