连续隐马尔科夫模型在点击欺诈识别中的应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wtmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎关键词广告营销模式的蓬勃发展,欺诈点击行为已经成为困扰广告商和搜索引擎公司的一大难题。对于点击欺诈识别与防治问题的研究也成为国内外学者们关注的焦点。本文分析了搜索引擎在线关键词广告的点击欺诈(click fraud)问题及其行为特征。鉴于关键词广告对应的点击行为模式较为符合隐马尔科夫模型(HMM)的基本前提假设,本文试图把HMM模型的理论框架应用于点击欺诈识别。本文的工作主要有:(1)HMM只是一个理论框架模型。本文对关键词点击的行为模式进行了分析,搭建了针对搜索引擎关键词广告的连续隐马氏模型(CHMM),并创立了欺诈点击行为的识别方法;(2)根据观测数据,训练得到CHMM模型(参数估计),并对该模型的识别效果进行了验证。统计结果表明:CHMM模型对点击欺诈的识别有较高的准确率;(3)讨论了模型中的参数:隐状态数N、序列的长度R、以及阈值大小,选取不同值的情况下,模型的识别准确度。以确定最佳的隐状态数(固定值)和阈值等参数。(4)由于时间段、突发事件等因素影响,可能导致某一在线关键词广告的点击率明显提升,但是这并不是欺诈点击造成的。本文采用动态的CHMM模型,不断更新用于训练的时间序列数据,以产生新的参数,可以很好的降低这类因素对模型识别准确度的影响。(5)隐马尔科夫模型(HMM)的参数估计是其应用于识别问题时能否达到较高的准确率的关键。传统的Baum-Welch算法有诸多缺陷,基于SegmentalK-Means(SKM)的训练算法,与Baum-Welch算法相比,不仅可以降低运算的复杂度,收敛速度也较快,而且该算法更侧重于对模型的输出模式进行自动分类识别。因此,对点击欺诈识别问题,SKM算法更有针对性,适用性更强。实证分析也表明,SKM训练算法对于点击欺诈的识别效果更好。此外,本文初步探讨了基于MCMC的Gibbs抽样法的HMM参数估计方法。
其他文献
近年来我国汽车工业发展势头迅猛,消费市场也快速成熟。人们对汽车产品的需求正在不断提高,不再满足于各种性能和功能的齐全,而更注重汽车的造型设计带来的视觉和心理感受,更注重
中国、美国分别是世界上最大的发展中国家和发达国家,中美双方贸易总额在2003年首次突破千亿,近些年也一直呈现快速增长趋势。与此同时,中国企业在美国市场频繁遭遇专利风险,突出
中考体育加试是我国特有的一种体育教学质量验证手段,也是推动我国体育教学改革、提高体育教学质量的有效措施。随着新课改在全国的开展,各地也开始了体育加试制度的改革。为
随着社会的飞速发展,青少年学生在人格方面出现的问题也日益凸出,成为一个教育界共同反思的问题。“形成学生良好的个性和健全的人格”是《普通高中语文课程标准(实验)》对语
当前中国公共政策能否实现预期目标并解决政策问题的关键在于政策执行能否得到社会广泛的认可支持,在执行过程中是否强有力的进行贯彻。政策执行是把观念转化为现实,是公共政
多输入多输出(MIMO,Multiple-Input Multiple-Output)雷达作为近年来学术界提出的一种新体制雷达,因具有常规雷达所不具备的优势,成为雷达界的研究热点。MIMO雷达可以实现灵活的发
本文以六年人参生晒参、人参红参、高丽生晒参、高丽红参为材料,测定皂苷、多糖、挥发油、全氮、全磷、全钾、微量元素铁、锰、铜、锌元素成分的含量,并进行分析比较。实验研
从20世纪80年代开始,美育逐渐引起教育界的关注。语文学科在美育方面具有特殊的优势。语文教学是中学美育的重要领域,而古典诗词教学是中学语文实现美育的重要途径。诗词教学
复杂系统由于上装设备众多,空间狭小,导致电磁兼容(EMC)问题突出。电磁兼容现场测试是解决系统性电磁兼容问题的有效手段,但在国内针对电磁兼容现场测试的研究还处于起步阶段,对
【背景】糖尿病视网膜病变(Diabetic retinopathy, DR)是最为常见的糖尿病微血管并发症之一,为成人致盲四大原因之一,严重威胁人类健康,其病理改变主要以视网膜新生血管生成为主