基于Storm与在线机器学习的广告点击率预测的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yaya_tush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络广告作为一种新的广告营销模式,极大地促进了广告产业的发展。在网络广告的营销模式中,广告的点击率会直接影响到广告商与网络出版商的利益。于是,对广告点击率的预测显得尤为重要。广告点击率的预测的核心是大规模机器学习。机器学习作为近年来的研究热点,已取得了技术上的突破。针对机器学习,许多模型与算法已被研究者们提出,如逻辑回归模型、因式分解机模型等。而对这些模型的求解,可通过梯度下降、FTRL-Proximal等算法实现。其中在线机器学习与随机梯度下降的方法具有优秀的时间空间性能,正成为一个热门的研究方向。考虑到上述不同模型与算法的优缺点,进行合理的改进可以很好的提高机器学习的效果。同时分布式技术的发展,使得解决大规模广告数据处理问题成为可能。在MapReduce模型的大数据批次处理广泛应用环境中,一种基于流处理的分布式实时计算模型被提出,提供了传统批处理无法实现的数据流与实时处理。基于以上研究,本文的主要工作如下:(1)研究了在流处理环境下,广告点击率预测中的数据预处理与特征降维、过滤等方法。(2)对比分析了在应用广泛的逻辑回归模型与基于多项式的因式分解机模型的优缺点。研究了在线梯度下降的优化的算法FTRL-Proximal,其提供了良好的稀疏性,可适用于大规模的广告点击率预测中。然后提出了一种基于FTRL-Proximal算法改进的因式分解机模型。并于广告点击率实验中证明了该算法就有更好的预测性能与稀疏性。(3)研究了目前热点的分布式随机梯度下降的方法,因为其可以实现逻辑回归与因式分解机等许多机器学习模型。然后结合了参数服务器的思想,设计实现了一种基于Storm的分布式在线机器学习系统,以满足对不断增长的海量广告日志数据进行在线处理与训练的需求。
其他文献
目的分析蛛网膜下腔出血(SAH)首发症状不典型的产生机制和误诊原因,以提高早期诊断水平。方法对2006-2010年诊治的21例首发症状不典型的SAH患者的临床资料进行回顾性分析。结
本文通过分析近五年俄语专业八级考试中阅读理解试题的语用效度,试图考查阅读理解测试与语用能力之间的关联性,希望能够为今后语用因素介入语言测试提供最为直接的参考,帮助
简要介绍了稳健性设计的基本原理及其在简易控制火箭弹角稳定系统设计中的应用.田口方法作为稳健性设计的典型代表,它以系统性能稳定、波动最小为优化目标,用特种正交表排列设计
本文在分析有限差分方法的基本假定的基础上导出了一种物理概念清楚、使用方便的集中质量有限元模型。将它和人工边界的处理方法相结合,系统地讨论了横向非均匀介质内近场波
会计电算化不仅提高了会计信息处理的速度和准确性 ,为用户提供及时、准确的会计信息 ,而且有助于加强管理 ,提高企业的竞争能力。同时也有效地减轻了会计人员的负担 ,使他们
甩挂运输作为先进的主流运输组织方式,可以产生可观的经济效益和良好的环境效果。目前我国甩挂运输发展严重滞后,把传统物流理论应用于甩挂行业,成为当前研究的热点。针对不
<正> 园中园座落在吉林市江南公园西侧,占地面积3.3平方公里。该园始建于1978年,是为纪念朱德委员长和董必武副主席视察该园而建造。园内曾陈列过1964年来委员长赠送的四盆兰
腐败是历史性、世界性的难题,作为腐败治理的众多主体之一,传统的政府审计则侧重发现和揭露腐败表象问题,难以充分发挥其效用。因此,本文试图构建以腐败治理为导向,政府审计为主,内
目的建立一种直接测定尿样中马尿酸含量的高效液相色谱方法。方法采用甲醇:磷酸盐缓冲液(20:80V/V)为流动相,流速0.8ml/min,PE4.6&#215;150mmC18/5μm柱分离,二极管阵列检测器检测波长220
本文就我县病死畜禽无害化处理存在的问题进行探讨,提出了一些解决问题的思路提供参考。