一种基于堆叠模型的钓鱼网站检测方法

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:wjdy110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,上网冲浪、浏览网页成为人们日常生活中越来越重要的习惯。不法分子通过假冒知名网站的登录页面,诱骗用户进行登录操作,进而获取用户的隐私信息,这种行为被称为网络钓鱼攻击。近年来,网络钓鱼攻击的数量呈现出惊人的增长趋势,在攻击形式上出现了很多变化。网络钓鱼攻击具有欺骗性强、针对性高和时效性短等特点,这些特点使得没有接受过网络钓鱼知识科普的人很难人为的识别钓鱼网站。在钓鱼网站检测领域中,目前在工业界应用最为广泛的是黑白名单加规则的方法。但是,钓鱼网站一般存活时间很短,这使得维护一个数量庞大且具有时效性的黑白名单数据库成本很高;另外,人为设定的规则很容易被钓鱼者通过其他方法来绕开规则的检测。近年来,在学术界研究最广泛的方法是通过机器学习的方法来检测钓鱼网站。这类方法具有准确率高,鲁棒性强等优点。但是,要训练机器学习模型,需要大量的数据,目前来说,有关钓鱼网站的公开数据集非常稀少;另外,过于复杂的系统识别的速度比较慢,做不到实时检测。为了应对上述问题,本文提出了一种基于堆叠(stacking)模型的使用多源特征的钓鱼网站检测方法。该方法能实时检测钓鱼网站,并且能识别钓鱼网站的假冒目标。具体的研究工作如下:1、在数据集方面,本文收集了一个真实的数据集,包含了53103个网页的URL、HTML和页面截图的图片数据,命名为50K-IPD。2、在多源特征方面,主要使用网站的URL、HTML源码和浏览器渲染后的页面截图三种来源特征;其中,URL和HTML的特征都是轻量级的且不依赖任何第三方提供的服务,这使得开发实时的钓鱼网站检测系统成为可能。3、在模型方面,设计了一种堆叠模型,改模型结合了GBDT、XGBoost和LightGBM三种机器学习算法,且具有多层的结构,使得不同算法之间能够形成优势互补,提高钓鱼网站检测系统的性能。该模型在50K-IPD数据集上达到了准确率98.6%、漏报率1.28%和误报率1.54%的性能表现。在与其他机器学习算法以及与同行提出的方法对比中,该模型都达到了最优。实验证明,本文提出的方法在钓鱼网站检测方面是可行的。4、更进一步的,在识别出钓鱼网站后,本文提出了识别钓鱼网站的假冒对象的方法。本文收集了一个包含9013个网页的页面截图数据集,命名为9K-PCD。根据钓鱼网页所假冒的对象不同划分为不同的类,共113个类,每个类有不少于10个的样本。在方法上,本文使用了深度卷积神经网络(CNN)来训练分类模型,最终在识别假冒对象上达到了准确率92.31%和F1值93.66%的性能表现。
其他文献
上海第一机床厂有限公司拥有一批具有国际水平的大型精密加工、精密焊接和精密测量等设备。能满足大型核电站反应堆堆内构件和控制棒驱动机构的国产化和规模生产要求。25年来
Pim-1基因为Pim家族成员之一,Pim-1在乳腺癌等多种实体瘤中存在着异常表达,其作为近年发现的新的生物标志物,有望被广泛采纳并应用于临床诊断和治疗多种实体瘤,其中包括乳腺
前苏联的官僚特权阶层形成于斯大林时期,壮大于勃列日涅夫时期,变质于戈尔巴乔夫时期,官僚特权阶层对苏联解体产生了非常重要的作用。汲取前苏联在官僚特权阶层问题上的教训有重
曾几何时 ,会展的消息铺天盖地 ,会展的彩旗在城市的上空随风飘起 ,这不仅成为城市间靓丽的视觉风景 ,而且会展形式下产生的巨大经济效益已使得城市管理者不可等闲视之 ,会展
本文利用第一性原理研究了C-Nb共掺杂的SnO2稳定性、能带结构与态密度,从自旋向上和自旋向下的能带结构以及态密度分析了掺杂体系磁性产生的机理.研究结果表明,C-Nb共掺杂SnO
环状挥发性甲基硅氧烷(cVMSs)由于其独特的物理化学性质,如,高蒸汽压,低表面张力以及与其他物质的高兼容性而被广泛地在化妆品和护肤品中作为溶剂和润肤剂等。到目前为止,国
microRNAs是广泛存在于真核生物中的小分子非编码RNA,在转录后水平调节多种生物进程,包括细胞分化和发育、免疫反应、凋亡等。microRNA-155是一个多功能的microRNA,研究发现m
2015年4月20日,国务院发布了中国(福建)自由贸易试验区总体方案,福建迎来了又一次重要的发展机遇期。自由贸易试验区的设立是新形势下我国推进改革开放的重大举措,对创新对外开
决策作为人类实践活动的重要环节,从日常生活到社会管理,再到改造自然、改造社会都离不开决策,评价作为支持决策的科学工具,在人类社会发展进程中发挥着重要作用。白洋淀湿地
上世纪90年代以来,我国商业银行赖以生存和发展的外部环境正发生着巨大的变化,为顺应金融全球化和时代化的发展,我国正逐步实行利率市场化、资本监管等多方面的改革。商业银行传统的粗放式和外延扩张型战略已不适用,面对激烈的外围市场环境,同时互联网金融的蓬勃发展,给商业银行带来巨大挑战,零售业务也面临渠道的优化和转型。必须通过转型,寻找其他业务来实现创收,于是零售业务成为商业银行新的利润增长点和突破口。零售