钓鱼邮件识别方法研究

来源 :肖怡含 | 被引量 : 0次 | 上传用户:caep315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,电子邮件成为现代人们的重要通讯手段之一。但与此同时也带来了一系列电子邮件安全问题,越来越多的攻击者利用电子邮件为载体,诱骗用户提供敏感信息或者执行恶意操作,造成了巨大的财务损失和数据泄露风险。邮件安全事件频繁发生,研究邮件安全,对于提升网络安全防护水平、保护用户隐私安全具有重要意义。另外,随着人工智能、深度学习等技术的不断发展,深度学习已经在很多领域取得了巨大的成功,但在钓鱼邮件识别中的应用仍然较少。而且基于深度学习的钓鱼邮件识别方法与其他方法相比,提供了更好的性能,识别效率更高,是近年来的新趋势。因此,本文致力于研究基于深度学习的钓鱼邮件识别方法,并开发了基于深度学习的钓鱼邮件识别系统,本文主要贡献如下:(1)针对基于深度学习的钓鱼邮件识别方法中特征表示还不成体系的问题,本文提出了一种基于多层次多特征的钓鱼邮件特征分析方法,从基础层字词特征、逻辑层语义特征、认知层情感特征、字符层统一资源定位符(Uniform Resource Locator,简称URL)特征四个方面,分别对钓鱼邮件正文特征进行分析并提出合适的特征表示方法。在字词特征方面,使用一种改进的TF-IDF(Term Frequency-Inverse Document Frequency,简称TF-IDF)方法筛选特征词;在语义特征方面,基于邮件语料库构建了能同时表征中英文单词语义信息的Word2Vec词向量模型;在情感特征方面,针对钓鱼邮件领域情感语料库的不足,构建了包含钓鱼邮件恐惧、好奇、紧迫情感的情感文本语料库;在URL特征方面,针对URL语法特殊性,采用N-gram分词及字符级编码的方式获取其特征表示。最后,本文提出了附件名关联特征和正文相关系数特征两个新特征。(2)针对目前钓鱼邮件识别模型可解释性和鲁棒性差的问题,本文提出一种基于多通道双向长短记忆网络(Bidirectional Long Short-Term Memory Network,简称Bi LSTM)+Attention钓鱼邮件识别模型。该模型可以将从邮件中提取出的多层次特征分别输入到多通道网络中进行处理和分析,并引入Bi LSTM来学习文本特征上下文依赖关系;同时,该模型引入了自适应Dropout正则化方法来提高模型泛化能力;然后,模型还引入了缩放点积注意力机制来加强模型的关注度,使其能够更加准确地识别出钓鱼邮件;最后,针对邮件数据集的不平衡问题,模型还引入了一种改进的二元交叉熵损失函数,即聚焦损失函数(Focal Loss)来对模型进行优化。实验结果表明,本文提出的模型各项指标优于现有基础模型,且提出的模型在中英文混合数据集上准确率达到了98.87%。(3)最后,本文基于以上两方面的研究,探讨钓鱼邮件识别系统的应用价值,设计并实现了一种基于深度学习的钓鱼邮件识别系统,用户可以上传指定格式邮件数据或者邮件EML格式文件,系统会对输入数据进行处理,并输出识别结果和特征注意力权重可视化图,帮助用户更清楚地了解系统识别结果的依据。
其他文献
沥青路面是我国公路路面的主要结构形式。沥青混合料离析是沥青路面发生早期破坏的主要原因之一。保证沥青混合料均匀性对延长道路使用寿命以及保障行车安全具有重要意义。目前我国现行规范中并没有给出沥青混合料离析判别指标和标准。而实际工程中沥青路面离析检测主要以抽样检测为主,效率低且选样随机性较大。因此,本文基于数字图像处理技术对SMA-13沥青路面压实状态下离析检测与定量评价进行研究,对提高路面施工质量具有
学位
随着钢桥面的筑路材料和铺装体系的不断发展,聚合物在钢桥面铺装应用的优势日益凸显,因其优良的着色性和应变性能,可作为钢桥面的彩色薄层铺装胶粘材料。钢桥面彩色薄层铺装不仅可塑造景观特色,还可以减少桥面系的负荷,并提供舒适安全的路表环境。聚合物彩色薄层体系作为钢桥面的一种功能层铺装,目前普遍采用油性胶粘材料,对环境造成不可避免的污染,且普通聚合物胶粘剂综合性指标较差。本文采用一种杂化的LT-100水性树
学位
泡沫轻质土因容重轻、强度可调、便于施工等特点,为解决高填方路堤稳定性不足、新老路基差异沉降、路基坍塌后快速修复等难题提供了新的技术手段。现有研究集中于优化材料配比或添入不同类型的外掺料来增强其力学性能,同土工合成材料等其他材料联合应用的研究较少。土工格栅在处治不均匀沉降,提高路基稳定性方面有独特优势。论文利用泡沫轻质土和土工格栅构筑泡沫轻质土加筋路堤足尺模型,采用足尺模型试验、数值模拟与施工工艺研
学位
为明确振动压路机诱发环境随机振动的影响规律、蜂窝状波阻块(HWIB)填充材料对振动压路机诱发环境振动缓振效应的影响规律,基于总集参数多体动力学理论建立压路机-弹塑性不平整路基耦合动力学模型,采用Matlab/Simulink软件对该模型进行解耦,进一步导入ABAQUS有限元软件建立数值模型,通过现场实测的振动加速度对数值模型参数进行校正,进而分析了压路机诱发环境随机振动传播特征及HWIB缓振效应的
学位
随着我国公路网的基本建成,路网结构不断完善,公路的未来发展趋势主要以养护修复为主。而随着路面检测技术的不断发展,路面弯沉检测对于路面结构性能的评价也越来越重要,关于弯沉的测试方法及理论受到了广泛的研究和应用。因此,开展对不同弯沉测试技术的相关性和客观准确地评价路面承载能力分析和研究具有重要的现实意义。本文的主要研究内容与成果如下:(1)对四种典型的路面承载能力检测技术(贝克曼梁、自动弯沉仪、FWD
学位
层间粘结性能不佳导致的层间滑移和拥包是水泥混凝土桥面目前最为常见的早期病害,直接影响桥梁的寿命及使用安全性。本文在国内外学者研究的基础上,以室内试验为基础,研究桥面板粗糙程度、防水粘结材料、试验温度三个因素对层间粘结性能的影响。研究内容及成果如下:(1)试验采用拉毛、抛丸(40)、抛丸Ⅱ、精铣刨四种工艺对C30水泥混凝土板界面进行处理,提取并分析每块板的粗糙度指标,探究桥面板表面处理工艺对构造特征
学位
沥青路面是我国高等级公路中应用最广泛的一种路面结构形式,其性能对交通安全有重要影响,提高沥青路面性能评价方法可以改善我国日益突出的交通安全问题。路面抗滑性能直接影响到车辆的制动性能,而构造深度是决定沥青路面抗滑性能的重要因素,因此构造深度检测技术的研究是非常有必要的。数字图像处理技术的不断发展,使其被广泛研究并应用于各个领域,其中运动恢复结构理论(SFM)作为一种特殊的数字图像处理技术也逐渐发展成
学位
纤维增强复合材料(FRP)是以纤维和树脂基体复合而成的一种新型材料,与传统的钢材和混凝土材料相比,FRP具有质量轻、强度高、绝缘性好、耐久性好、可设计性强等突出优点,近年来已成为土木工程领域的研究热点,已经在桥梁、工程加固、空间网架等领域中得到了较为广泛的应用。采用FRP材料制成杆件代替传统钢材制作新型支撑结构,可以解决传统钢支撑结构重量大、安装效率低、运输不便等问题,因此FRP支撑结构有望在抢修
学位
我国现阶段运营的公路隧道数量众多,其里程也正处于高速增长过程中。既有公路隧道衬砌普遍存在大量裂缝,传统的衬砌裂缝检测方法难以适应交通运输信息化、智能化的发展需求。因此,开展公路隧道衬砌裂缝的快速自动检测,并提高衬砌裂缝图像识别精度具有相当必要性和较高工程价值。由于隧道衬砌裂缝图像背景复杂,常伴有渗水、阴影、光源不均等因素表现出不利于对其图像识别的强干扰性,使得采用数字图像识别技术来进行隧道衬砌裂缝
学位
随着我国公路养护里程的不断增加,大量公路边坡进入养护阶段,尤其是我国西南地区高陡岩质边坡众多,在时间和环境条件作用下极易发生失稳变形,对公路运营安全造成极大的威胁。因此,研究具有科学性和实用性的公路岩质边坡安全性评价方法,为西南等地区的公路岩质边坡建设和运营安全提供安全保证是十分必要的。本文对传统边坡安全性评价方法归纳分析,在边坡不确定性分析方法基础上,提出将因子分析方法与机器学习算法相结合的公路
学位