基于行为识别的垃圾邮件过滤技术的研究与应用

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:say_8139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件泛滥问题日益严重,垃圾邮件过滤技术日益成为当今的研究热点。目前垃圾邮件过滤技术主要包括第一代基于规则的过滤技术、第二代基于内容的过滤技术和第三代基于行为的过滤技术。传统的第一代和第二代垃圾邮件过滤技术在处理效率,规则的持久性等方面存在一些不足。基于行为识别的垃圾邮件过滤技术在节省网络资源,处理效率上具有明显的优势。本文在现有的行为识别过滤技术研究基础之上,提出了一种基于行为特征加权的决策树过滤算法。基于行为特征加权的决策树过滤算法的思想为:针对大量的垃圾邮件所表现出来的行为特征,选取出一系列的行为特征,采用主成分分析法选取其中具有代表性的特征,然后选取等量的正常邮件和垃圾邮件,根据统计的方法分别计算某一特征对正常邮件和垃圾邮件的贡献率,作为其权值,采用决策树算法生成判别决策树,使用大量的已知属性的邮件样例测试决策树,分别得到正常邮件和垃圾邮件的加权平均权值,作为垃圾邮件和正常邮件的判断阈值。如果邮件的路径权值小于垃圾邮件阈值,则判定为垃圾邮件;如果大于正常邮件阈值,则该邮件被判断为正常邮件;介于二者之间则使用决策树算法判断。通过大量待测实例的仿真实验得到统计结果,实验结果表明基于行为特征加权的决策树算法相比以往的单纯决策树算法在准确率和召回率方面有所提高。证明本文所提出的基于行为特征加权的决策树过滤算法有效,且具有较好的实用性。
其他文献
随着互联网的发展和网民数量的快速增长,越来越多政府、学校、企事业单位的业务都依托于网站。与此同时,由于各类Web应用系统的复杂性和多样性,特别是缺乏必要的安全性维护,网页
计算机视觉系统在视频监控、自动驾驶、城市交通系统等很多领域得到了广泛应用,但在雾霾天气状况下采集获取的图像质量严重下降,不仅图像清晰度降低,对比度差,而且雾霾图像往往还
随着网络和多媒体技术的发展,远程教育使学习过程发生了翻天覆地的变化。学生可以通过网络独自学习在线课程和理论知识;在线协作写一篇某一主题的文章;老师和学生在异地进行实
概率模型检测是一种形式化的验证方法,它首先将目标系统建模成一个概率模型,并用概率时序逻辑刻画要验证的属性,然后判定模型是否满足此属性,或是求解属性的值。相对于实验和仿真
高维数据的近邻搜索是许多应用研究的一个基础问题,它需要依赖于有效的数据结构和算法。本文主要研究了局部敏感哈希算法并对其进行了改进。  在本文中,我们首先阐述了局部敏
遥感图像的聚类分割是分析遥感图像中地貌特征与空间关系的重要步骤。由于遥感图像具有数据维度高、数据量大、数据结构复杂的特点,传统的模糊聚类方法在遥感图像分割中的应
随着数据管理需求的不断增长,降低与控制数据中心的能耗成为一个挑战性问题,DBMS是数据中心核心软件,能效查询处理与优化是其中一个重要议题,随着新硬件的发展(固态盘),在新
随着计算机和互联网使用的普及,企业信息化变得越来越重要,巨大的应用需求推动了企业级应用技术的发展。J2EE技术被大规模地用在了信息系统之中,并在企业级应用市场上占领着
随着科技的发展,国家越来越重视可再生能源的开发。小水电作为一种清洁、可持续、安全有效的可再生能源,在国家能源发展战略上有着深远的意义。但由于水电机组设备比较复杂,通常采用人工的方式进行异常检测,这样不但效率低下而且有时不能判断噪声源的准确部位,因此需要研究基于机器学习的识别方法。非负矩阵分解处理数据后具有非负组合的特性,如何将非负矩阵分解算法应用于水电机组噪声源识别中具有非常重要的研究价值。本文分
21世纪初,Ahlswede等人从信息论的角度出发,提出了网络编码的概念,它可以大幅度提高网络的传输容量,从而能够在有限的网络资源上传输更多的信息。目前大部分路由协议的研究仅