论文部分内容阅读
广告点击率预测是在线广告投放过程中的一项重要任务,有助于理解以广告投放平台为代表的系统特性。在线广告运营是通过后台计算与搜索内容相匹配的广告,将其进行精准投放的过程。广告投放机制可以快速增加广告主投放的广告点击率(Click-through Rate,CTR),帮助用户获取优质的资源信息。随着科技的迅猛发展,面对庞大的数据量,高维稀疏的特征,冗余数据构成了更加复杂的广告数据。传统的广告点击率预测方法已经不能满足日益复杂的广告数据。如何快速而准确的构造一个广告点击率预测模型是一个迫在眉睫的研究课题。广告点击率预测是致力于在线广告投放后点击率的检测。当使用经典的逻辑回归算法处理广告不平衡的高维稀疏数据时,广告点击率预测方法未能考虑特征之间的联系使得预测的准确度不理想。为了解决这个问题,本文通过迁移学习方法提取不平衡数据样本之间的潜在关系表示,使得广告数据的预测结果得到大幅度提升。本文提出两种广告点击率预测方法:迁移学习影响下基于鲁棒性集成局部内核嵌入的广告点击率预测方法(Click-Through Rate Prediction Method based on Robust Integrated Locally Kernel Embedding under the Influence of Transfer Learning,RTILKE)和基于多视图特征迁移的广告点击率预测方法(Click-Through Rate Prediction Method based on Multi-view Feature Transfer,MFT)。RTILKE和MFT在不同规模的数据集通过评价指标显示出模型效果,并与多个经典方法进行对比,从而进一步验证两个模型的有效性和可行性。本文的主要工作如下:(1)提出迁移学习影响下基于鲁棒性集成局部内核嵌入的广告点击率预测方法(RTILKE)。该方法首先将数据分为源域和目标域,源域分为三组:正样本(完全被点击的),负样本(完全不被点击的)和正负混合样本(MIX)。该操作是为了解决样本数据间不平衡度问题,提出了利用迁移学习的方法改善不平衡数据带来的预测不稳定。然后将预处理过的数据拓展成核函数,并在此基础上扩充系数矩阵和标签对称核矩阵形成鲁棒性集成局部内核嵌入(Robust Integrated Locally Kernel Embedding,RILKE)模型,从而使得算法的稳定性更好。最后相似函数和非负嵌入矩阵的构建采用交替固定相似函数和非负嵌入矩阵的迭代更参优化操作,求得局部最优化的预测值。大量的实验结果表明,RTILKE在广告点击率预测上是有效的,而且在不平衡广告数据集的预测上具有明显的优势。(2)提出一种基于多视图特征迁移的广告点击率预测方法(MFT)。RTILKE算法在不平衡广告数据集预测上具有明显的优势,但是考虑到广告数据的复杂性和特征的多样性,数据之间的迁移不能够充分发现广告数据内部的特征关系。因此,本文进一步提出一种基于多视图特征迁移的广告点击率方法。MFT首先在数据预处理过程中将数据分为普通特征和精选特征。精选特征组合成特征矩阵通过K近邻的方法构造邻接矩阵并且采用构造图的方式构造拉普拉斯矩阵,得出前k个特征向量。为了提取出特征之间的联系,采用特征迁移的方法,并将得到的前k个重要特征向量矩阵结合普通特征矩阵组合成每一个视图,从而使得MFT充分利用了数据的不同属性。在不同规模数据集上的实验表明,MFT实现了在广告数据集上得出良好的预测结果,其在性能上已经优于很多的广告点击率预测方法。