基于代价敏感方法的垃圾网页欺诈检测

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:pingli_lp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近20年互联网技术的急速发展,各式各样的网站和Web应用层出不穷,这些网站的出现给人们的生活带来了便利。与此同时,作为互联网发展的副产品,网上也存在大量含有诈骗或有害信息的垃圾网页,这些被作弊者散布的垃圾网页严重地危害着上网者的利益。如何准确地识别和检测这些垃圾网页是当前研究者所关注的热点之一。本文首先从垃圾网页二元分类检测入手,研究当垃圾网页和正常网页被错分后产生的不同代价,采用了基于代价敏感支持向量机的检测方法。在引入代价敏感方法后,针对很多方案中需要人为指定代价的问题,基于粒子群优化算法构建了融合代价计算的垃圾网页检测框架。具体做法是把代价敏感支持向量机包装为粒子群算法的适应函数,其中代价敏感分类的代价参数作为粒子群算法的寻优问题,分类算法的AUC值作为适应函数的输出。以此既保证了分类检测的性能又降低了人为因素对算法的影响。其次,本文研究了多级垃圾网页检测问题,多级检测相比二分检测更加细粒度,要求垃圾网页按不同危害度被检出。本文基于代价敏感支持向量机的“一对一”组合多元分类方法实现了多级垃圾网页检测,“一对一”组合多分类方法既保证了检测性能,又避免了代价矩阵中代价融合的问题。之后同样结合粒子群优化算法,对多个误分类代价进行计算。本文基于UK2007垃圾网页数据集的原始类标数据,构建了 MC-UK2007三类别的新数据集。之后分别使用UK2007和MC-UK2007进行融合代价计算的二分类和多分类检测实验,并应用其他算法设置了多组实验进行对比。实验结果显示本文所提的两个方法均能取得更优的AUC值,表明本文方法能够更有效地检出垃圾网页。
其他文献
电子商务的快速发展使得在线购物变得普及,商品评论作为最重要的用户反馈,其数量正呈现爆炸性增长。基于公平性以及刺激用户的互动性,电子商务平台大多会公开商品的评论,这使
汽车是人们日常生活中不可缺少的交通工具,随着汽车保有量的不断增长,我国交通事故,汽车安全问题日渐突出,关系到社会的和谐发展、经济增长等重要问题,而且随着汽车智能化的要求越
随着我国科学技术的提高,我国现代化农业飞速成长,设施农业已经成为我国农业的首要生产方式。设施农业解决了传统农业中土地利用率低、生产周期长、技术含量低、作业环境差等缺
随着互联网的广泛使用和数码产品的普及,数字图像在人们生活中所占的比重越来越大。为了快速准确的从海量数字图像中找到需要的图像,人们提出了图像检索技术。目前图像检索技术
根据摩尔定律的表述,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍。但是,晶体管数目不可能无限制的增加,它总会达到一个极限。另外由于电子计算机自身计算性能存在局
视频目标跟踪是计算机视觉领域中的一项重要研究课题,已经广泛应用于人机交互、视频监控、智能环境及军事领域等方面,因此研究视频目标跟踪是非常有意义的。均值漂移(Mean Shift
全同态加密技术的提出对计算机科学与技术的发展具有举足轻重的意义,甚至有人认为全同态加密技术是云计算的救星。全同态加密具有直接操作密文而不需要解密的优越性质,即对密文
近年来,随着经济的快速发展,农业食品安全问题日益凸显。实时地监测农业生产信息,对指导农业生产及解决食品安全问题有着重大的意义。在整个监控系统中,无线传感器网络网关系统处
移动容迟网络(MobileDTN,简称MDTN)是从延迟容忍网络(Delay Tolerant Network,简称DTN)发展起来的一种新型网络,其特点是节点移动性强、长延迟、低传输率,采取"存储-携带-转
基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮