论文部分内容阅读
网络广告作为一种新的广告营销模式,极大地促进了广告产业的发展。在网络广告的营销模式中,广告的点击率会直接影响到广告商与网络出版商的利益。于是,对广告点击率的预测显得尤为重要。广告点击率的预测的核心是大规模机器学习。机器学习作为近年来的研究热点,已取得了技术上的突破。针对机器学习,许多模型与算法已被研究者们提出,如逻辑回归模型、因式分解机模型等。而对这些模型的求解,可通过梯度下降、FTRL-Proximal等算法实现。其中在线机器学习与随机梯度下降的方法具有优秀的时间空间性能,正成为一个热门的研究方向。考虑到上述不同模型与算法的优缺点,进行合理的改进可以很好的提高机器学习的效果。同时分布式技术的发展,使得解决大规模广告数据处理问题成为可能。在MapReduce模型的大数据批次处理广泛应用环境中,一种基于流处理的分布式实时计算模型被提出,提供了传统批处理无法实现的数据流与实时处理。基于以上研究,本文的主要工作如下:(1)研究了在流处理环境下,广告点击率预测中的数据预处理与特征降维、过滤等方法。(2)对比分析了在应用广泛的逻辑回归模型与基于多项式的因式分解机模型的优缺点。研究了在线梯度下降的优化的算法FTRL-Proximal,其提供了良好的稀疏性,可适用于大规模的广告点击率预测中。然后提出了一种基于FTRL-Proximal算法改进的因式分解机模型。并于广告点击率实验中证明了该算法就有更好的预测性能与稀疏性。(3)研究了目前热点的分布式随机梯度下降的方法,因为其可以实现逻辑回归与因式分解机等许多机器学习模型。然后结合了参数服务器的思想,设计实现了一种基于Storm的分布式在线机器学习系统,以满足对不断增长的海量广告日志数据进行在线处理与训练的需求。