论文部分内容阅读
随着中国经济的增长,近年国内网络广告服务类费用支出占比也逐年增加。广告主通过广告服务商在网络广告媒介(各类APP、网站等)发布广告。发布成功后广告主为用户点击行为支付费用,广告媒介获取广告费。有些广告媒介为获取高额点击量通常会用各种手段制造虚假广告点击。根据相关报告截至2018年全年网络广告异常流量占比达到了30.2%,其中有近一半来自于点击欺诈,由此可见网络广告点击欺诈现象比较严重。因此,对于网络广告点击欺诈的监测治理刻不容缓。
本文通过对国内外点击欺诈文献的研究,确定了以解决广告主对于网络广告监测和治理方法研究为本文目的。针对广大广告主的痛点本文提出了一个问题:如何能找到适合广告主使用的技术方法准确并且低成本地识别出点击欺诈,并通过实施恰当的治理对策改善网络广告点击欺诈情况。同时为了解决此问题本文也提炼出了三个关键因素:1.点击欺诈识别技术因素,2.点击欺诈识别成本因素,3.点击欺诈治理因素。
针对第一个因素的优化,本文第四章运用卷积降噪自编码器模型解决在异常样本比例较少的情况下通过学习正常样本特征进行异常分类的问题。网络广告数据集中,正常样本一般拥有相同的特征,而异常或欺诈原因不同,呈现出不同的欺诈特征。本论文引用的BuzzCity点击欺诈数据库由于异常数据比例低,只能从正常样本数据中学习高维数据中的有效特征,并通过对其进行重构,计算重构误差。最后进过试验仿真验证本文方法在各种指标上达到90%以上,其中召回率更是超过其他三种方法近10%。这样可以帮助广告主初步筛选出哪些是正常点击,哪些是异常点击。
针对第二个因素,本文结合现实工程应用需求,结合s公司点击广告数据库实际情况,创新地提出了一种端到端的基于改进半监督生成式对抗网络(Semi-supervised GAN,SSGAN)的点击欺诈监测方法,相对于传统半监督学习方法只能利用数据浅层特征,基于SSGAN的方法能够通过挖掘数据的深层特征充分提取数据内在联系,实现在部分已有类标数据和大量无类标的数据来实现点击欺诈监测,增强了模型泛化能力,大大提高了效率。达到降低专家人工标注比例的情况下仍保持较高检测精度的目的,大大降低了标注成本。由于国内欺诈情况相对Buzzycity所在的新加坡要严重较多,因此专家标注出了较多具有欺诈特征的网络广告发布商,这样有足够多的异常点击特征进行学习。因此可以分别学习正常点击和异常点击的特征进行点击欺诈识别。所以第五章进一步对第一个影响因素点击欺诈识别技术因素进行了拓展和优化。
针对第三个因素的优化,本文通过增加衡量投放效果度量指标、合同条款优化、网络广告媒介评估流程优化和与网络广告服务商进行点击欺诈识别合作进行治理并收到了良好的效果,从源头降低了点击欺诈异常流量比例。
通过运用创新算法和高效的治理手段,本文解决了困扰广大广告主的最大难题:如何能找到适合广告主使用的技术方法准确并且低成本地识别出点击欺诈,并通过实施恰当的治理对策改善网络广告点击欺诈情况。
本文通过对国内外点击欺诈文献的研究,确定了以解决广告主对于网络广告监测和治理方法研究为本文目的。针对广大广告主的痛点本文提出了一个问题:如何能找到适合广告主使用的技术方法准确并且低成本地识别出点击欺诈,并通过实施恰当的治理对策改善网络广告点击欺诈情况。同时为了解决此问题本文也提炼出了三个关键因素:1.点击欺诈识别技术因素,2.点击欺诈识别成本因素,3.点击欺诈治理因素。
针对第一个因素的优化,本文第四章运用卷积降噪自编码器模型解决在异常样本比例较少的情况下通过学习正常样本特征进行异常分类的问题。网络广告数据集中,正常样本一般拥有相同的特征,而异常或欺诈原因不同,呈现出不同的欺诈特征。本论文引用的BuzzCity点击欺诈数据库由于异常数据比例低,只能从正常样本数据中学习高维数据中的有效特征,并通过对其进行重构,计算重构误差。最后进过试验仿真验证本文方法在各种指标上达到90%以上,其中召回率更是超过其他三种方法近10%。这样可以帮助广告主初步筛选出哪些是正常点击,哪些是异常点击。
针对第二个因素,本文结合现实工程应用需求,结合s公司点击广告数据库实际情况,创新地提出了一种端到端的基于改进半监督生成式对抗网络(Semi-supervised GAN,SSGAN)的点击欺诈监测方法,相对于传统半监督学习方法只能利用数据浅层特征,基于SSGAN的方法能够通过挖掘数据的深层特征充分提取数据内在联系,实现在部分已有类标数据和大量无类标的数据来实现点击欺诈监测,增强了模型泛化能力,大大提高了效率。达到降低专家人工标注比例的情况下仍保持较高检测精度的目的,大大降低了标注成本。由于国内欺诈情况相对Buzzycity所在的新加坡要严重较多,因此专家标注出了较多具有欺诈特征的网络广告发布商,这样有足够多的异常点击特征进行学习。因此可以分别学习正常点击和异常点击的特征进行点击欺诈识别。所以第五章进一步对第一个影响因素点击欺诈识别技术因素进行了拓展和优化。
针对第三个因素的优化,本文通过增加衡量投放效果度量指标、合同条款优化、网络广告媒介评估流程优化和与网络广告服务商进行点击欺诈识别合作进行治理并收到了良好的效果,从源头降低了点击欺诈异常流量比例。
通过运用创新算法和高效的治理手段,本文解决了困扰广大广告主的最大难题:如何能找到适合广告主使用的技术方法准确并且低成本地识别出点击欺诈,并通过实施恰当的治理对策改善网络广告点击欺诈情况。