论文部分内容阅读
随着搜索引擎关键词广告营销模式的蓬勃发展,欺诈点击行为已经成为困扰广告商和搜索引擎公司的一大难题。对于点击欺诈识别与防治问题的研究也成为国内外学者们关注的焦点。本文分析了搜索引擎在线关键词广告的点击欺诈(click fraud)问题及其行为特征。鉴于关键词广告对应的点击行为模式较为符合隐马尔科夫模型(HMM)的基本前提假设,本文试图把HMM模型的理论框架应用于点击欺诈识别。本文的工作主要有:(1)HMM只是一个理论框架模型。本文对关键词点击的行为模式进行了分析,搭建了针对搜索引擎关键词广告的连续隐马氏模型(CHMM),并创立了欺诈点击行为的识别方法;(2)根据观测数据,训练得到CHMM模型(参数估计),并对该模型的识别效果进行了验证。统计结果表明:CHMM模型对点击欺诈的识别有较高的准确率;(3)讨论了模型中的参数:隐状态数N、序列的长度R、以及阈值大小,选取不同值的情况下,模型的识别准确度。以确定最佳的隐状态数(固定值)和阈值等参数。(4)由于时间段、突发事件等因素影响,可能导致某一在线关键词广告的点击率明显提升,但是这并不是欺诈点击造成的。本文采用动态的CHMM模型,不断更新用于训练的时间序列数据,以产生新的参数,可以很好的降低这类因素对模型识别准确度的影响。(5)隐马尔科夫模型(HMM)的参数估计是其应用于识别问题时能否达到较高的准确率的关键。传统的Baum-Welch算法有诸多缺陷,基于SegmentalK-Means(SKM)的训练算法,与Baum-Welch算法相比,不仅可以降低运算的复杂度,收敛速度也较快,而且该算法更侧重于对模型的输出模式进行自动分类识别。因此,对点击欺诈识别问题,SKM算法更有针对性,适用性更强。实证分析也表明,SKM训练算法对于点击欺诈的识别效果更好。此外,本文初步探讨了基于MCMC的Gibbs抽样法的HMM参数估计方法。