针对欺诈网页高度数据不平衡问题的分类检测方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:wanfan001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术飞速发展,网络应用深入到了人们生活的方方面面。在互联网技术方便人们生活的同时,也有一些人利用互联网技术方便快捷的特点来谋取私利。于是,网络环境中出现了大量具有欺骗性质,传播不良信息的欺诈网站。欺诈网页传播有害信息,降低搜索引擎的服务质量,严重威胁网络安全。如何快速准确的检测欺诈网页成为web安全研究热点。从分类算法角度研究,网页欺诈检测由于其数据的不平衡性,导致传统分类算法出现分类的偏向性,多表现为多数类检测准确率高,少数类准确率低。本文通过对常用分类算法的比较分析,选取随机森林算法作为基础检测算法,分析数据不平衡对随机森林的具体影响提出基于随机森林的集成学习算法。在集成算法的每个子分类器利用训练数据的数量优势提高少数类检测准确率,而利用样本的相似性保持多数类的检测准确率。实验结果显示该算法提升了少数类的检测准确率,并得到了较为均衡的两类检测准确率。从数据平衡算法角度研究,应对不平衡分类问题最直接的办法就是对数据进行平衡,但仅仅使用过采样增加少数类数量对分类效果提升有限。本文提出了智能混合型数据平衡算法。一方面使用降噪改进的SMOTE过采样增加少数类数量,另一方面通过基于异常点去除和密度削减的级联欠采样算法减少多数类的数量。同时,使用模拟退火算法对各部分采样具体参数进行寻优确定。实验结果显示该算法对数据集的平衡有效增强了实验所用所有传统分类器的性能,并在与随机森林与C4.5的结合使用中均得到了非常好的分类器性能。
其他文献
我国稻米食味评定主要依据蒸煮试验和成分测定。蒸煮试验多数按照GB/T 15682-1999(稻米蒸煮试验品质评定),而成分分析主要为稻米直链淀粉分析。分析了进行品质评定时容易发生的
区域形象是城市发展的一笔无形资产,在新型城镇化背景下需要更新区域形象设计理念和方法。通过以甘肃省庆阳市为例,提出设计活力、魅力、美丽庆阳形象的方案。庆阳市要营造风
本研究为柔枝松(Pinus flexilis James.)种子内源激素含量的变化实验。经过人工老化处理,5个柔枝松种源种子内源IAA、ZR、GA3和ABA含量发生明显的变化,在整个发芽过程中,各内源激素
不断推进马克思主义中国化、时代化、大众化,是我们党在马克思主义理论创新和实践运用中的重大课题。艾思奇是这方面做出杰出贡献的代表人物之一。围绕“艾思奇与马克思主义大
贵州省“民族文化进校园”政策具有民族文化政策和民族教育政策双重性质的复合型政策,其出台的背景既有国家文化事业发展的需要,也有促进民族团结进步的要求。政策历经起步、
随着社会经济的快速发展,智能变电站的使用为我国的能源发展做出了贡献。人们通过使用各种家用电器,提高生活水平,并且对电力的需求也在日益增加。因此,为了能够更大程度的满
在工程招投标过程中,投标保证金是为了保障招投标双方的利益,投标人按时足额向招标人提交投标保证金,实质上是对招标文件要约履行的重要保障。因此,投标保证金在一定程度上保
我们做一个小实验,把一块尺寸较大的量块放在光学计测头下面,对好零位,然后用手接触量块,手的温度传到量块上,这时从目镜中观察到刻度尺寸上的读数迅速增大,一两分钟内甚至会
本文提出了一种用EDAX PV9900能谱仪半定量分析(SUPQ)中的峰背拟合(INTE)功能来正确识别X射线能谱重叠峰的新方法。文章重点总介绍了该方法的基本原理和应用实例分析,给出了
联合运动学习是个体为适应环境通过联合学习而获得的条件化运动行为。联合学习需要两个刺激事件以一定的时间关系重复发生,并最终导致刺激在脑内形成关联[1-4]。联合运动学习