基于迁移学习的广告点击率预测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ljmworkshop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告点击率预测是在线广告投放过程中的一项重要任务,有助于理解以广告投放平台为代表的系统特性。在线广告运营是通过后台计算与搜索内容相匹配的广告,将其进行精准投放的过程。广告投放机制可以快速增加广告主投放的广告点击率(Click-through Rate,CTR),帮助用户获取优质的资源信息。随着科技的迅猛发展,面对庞大的数据量,高维稀疏的特征,冗余数据构成了更加复杂的广告数据。传统的广告点击率预测方法已经不能满足日益复杂的广告数据。如何快速而准确的构造一个广告点击率预测模型是一个迫在眉睫的研究课题。广告点击率预测是致力于在线广告投放后点击率的检测。当使用经典的逻辑回归算法处理广告不平衡的高维稀疏数据时,广告点击率预测方法未能考虑特征之间的联系使得预测的准确度不理想。为了解决这个问题,本文通过迁移学习方法提取不平衡数据样本之间的潜在关系表示,使得广告数据的预测结果得到大幅度提升。本文提出两种广告点击率预测方法:迁移学习影响下基于鲁棒性集成局部内核嵌入的广告点击率预测方法(Click-Through Rate Prediction Method based on Robust Integrated Locally Kernel Embedding under the Influence of Transfer Learning,RTILKE)和基于多视图特征迁移的广告点击率预测方法(Click-Through Rate Prediction Method based on Multi-view Feature Transfer,MFT)。RTILKE和MFT在不同规模的数据集通过评价指标显示出模型效果,并与多个经典方法进行对比,从而进一步验证两个模型的有效性和可行性。本文的主要工作如下:(1)提出迁移学习影响下基于鲁棒性集成局部内核嵌入的广告点击率预测方法(RTILKE)。该方法首先将数据分为源域和目标域,源域分为三组:正样本(完全被点击的),负样本(完全不被点击的)和正负混合样本(MIX)。该操作是为了解决样本数据间不平衡度问题,提出了利用迁移学习的方法改善不平衡数据带来的预测不稳定。然后将预处理过的数据拓展成核函数,并在此基础上扩充系数矩阵和标签对称核矩阵形成鲁棒性集成局部内核嵌入(Robust Integrated Locally Kernel Embedding,RILKE)模型,从而使得算法的稳定性更好。最后相似函数和非负嵌入矩阵的构建采用交替固定相似函数和非负嵌入矩阵的迭代更参优化操作,求得局部最优化的预测值。大量的实验结果表明,RTILKE在广告点击率预测上是有效的,而且在不平衡广告数据集的预测上具有明显的优势。(2)提出一种基于多视图特征迁移的广告点击率预测方法(MFT)。RTILKE算法在不平衡广告数据集预测上具有明显的优势,但是考虑到广告数据的复杂性和特征的多样性,数据之间的迁移不能够充分发现广告数据内部的特征关系。因此,本文进一步提出一种基于多视图特征迁移的广告点击率方法。MFT首先在数据预处理过程中将数据分为普通特征和精选特征。精选特征组合成特征矩阵通过K近邻的方法构造邻接矩阵并且采用构造图的方式构造拉普拉斯矩阵,得出前k个特征向量。为了提取出特征之间的联系,采用特征迁移的方法,并将得到的前k个重要特征向量矩阵结合普通特征矩阵组合成每一个视图,从而使得MFT充分利用了数据的不同属性。在不同规模数据集上的实验表明,MFT实现了在广告数据集上得出良好的预测结果,其在性能上已经优于很多的广告点击率预测方法。
其他文献
对于任意的实数α,我们用{a}来表示a的小数部分。研究涉及小数部分的部分和历来都备受关注,因为它与很多数论问题都有重要的联系。例如,根据Dirichlet在1849年对除数函数的部
随着网络和通信技术的不断发展,各国对工业互联网的发展越来越重视。工业4.0的核心技术之一是一个对时间非常敏感的CPS(Cyber-Physical Systems,信息物理系统)。一个连接传感器、执行器和控制器的实时通信网络可以确保控制信息物理系统的精准实现。如何为工业互联网提供一种可以提高信息传输量、同时具有固定延迟时间的以太网方案成为一项重要的研究课题。在分析国内外信息压缩和时间敏感网络研究现
随着股权分置改革不断推进,我国上市公司呈现出所有权与控制权相分离的态势,经营权与实际控制权不再专属于发起人股东,公司的股权结构也随着改革的深入越发分散,刺激了一部分实力雄厚的上市公司通过敌意收购争夺目标公司的实际控制权,迅速实现资本掠夺。从上市公司敌意收购行为理论概述入手,梳理了敌意收购行为的概念特征、认定条件以及敌意收购双方主体的权利义务关系,结合资本市场中“万宝之争”、“爱建之争”、“浙民投决
碳碳键与碳杂键的构建是有机基础化学中最重要的组成部分之一。通过C-H键的催化氧化来构建C-X键一直是众多科学家研究的热点。为了应对金属试剂本身价格相对较昂贵,以及由金
近年来,由于日益严重的环境问题和能源短缺问题,绿色可持续发展已经引起人们的广泛关注。氢能源是一种清洁的可再生能源,对解决上述问题至关重要。利用太阳能进行光催化分解
近年来,股权质押成为越来越多上市公司控股股东的融资选择,存在控股股东股权质押的上市公司数量和股权质押的规模都在不断扩大。股权质押作为一种新兴的融资工具,在我国资本
如今,人们越来越习惯于通过各类社交媒体平台来获取资讯和参与网络互动,与此同时包含着文本、图片和视频等多媒体用户生成数据的总量也在飞速增长。新浪微博平台就是当前最流
近年来,轨道交通因其绿色、便捷、运量大等优点逐渐成为人们出行的重要选择,各大城市也选择大力发展轨道交通系统。随之而来的是轨道交通运量的增加以及网络复杂度的提高,使轨道交通运营计划的制定难度不断加大,这给轨道交通运营管理部门的日常工作带来了巨大的挑战。因此,需要对进站客流和断面客流进行更加精准的预测,为车站的动态管理以及运营计划的编制提供数据支持,从而在满足乘客出行需要的同时提升服务水平。本文针对进
赤铁矿(α-Fe2O3)由于化学稳定性极好、价格低廉、能带合适等原因在光电化学分解水(PEC-WS)领域具有广阔应用前景。但α-Fe2O3薄膜光阳极的实测太阳光解水性能远低于其理论预
随着人类现代社会的进步,我们进行通信的方式也在不停的向先进的方向进行演变,越来越多的新型的无线和有线的通信网络被大规模的部署。因而呈现出多种网络并存的现状,可分配的频谱越来越少,加之频谱资源采用固定分配的方式,其短缺的问题越来越严峻。频谱感知作为认知无线电的基础技术,可以实时对空闲频谱进行观测,为后续次用户采用动态接入技术来利用这些资源提供数据基础,能够大幅度改善现在对频谱资源的利用率低下的困局,