垃圾邮件样本分析技术研究与系统实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:scv100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件已成为互联网用户的烦恼之一,已经严重干扰了人们的正常生活,浪费用户的时间、精力甚至造成了信息安全隐患。  人们已经研究了多种反垃圾邮件技术,基于规则的垃圾邮件过滤技术和基于内容分析的垃圾邮件过滤技术是其中的重要组成部分。规则生成和分类器训练需要大量的垃圾邮件样本,为此需要研究垃圾邮件样本分析技术,以实现垃圾邮件样本的获取、消重、存储和垃圾邮件特征选择。  针对样本获取,本文设计了一种基于邮件网关的样本拦截获取机制;针对样本消重,本文设计了两阶段样本消重机制,包括初级样本消重和深层样本消重;针对垃圾邮件样本数据存储问题,本文设计了一种基于相似度测量的垃圾邮件样本聚合算法,结合该算法设计并实现了一种适用于大量垃圾邮件样本数据存储的两级数据存储结构。  本文着重研究了基于垃圾邮件样本分析的特征选择算法。为满足“选出更少的特征来更准确识别绝大部分垃圾邮件”的需求,本文设计了基于遗传算法和粒子群优化算法的特征选择机制。为满足“选出更全面的特征以精确识别垃圾邮件”的需求,本文设计了面向kNN分类器和特征选择的联合优化机制。  本文对设计的机制和算法进行了系统实现。本文所实现的垃圾邮件样本分析系统由数据分析引擎和信息分析发布平台两个部分组成。本文还设计实现了测试平台,测试了系统的可行性、有效性和实用性。测试结果表明本文所设计样本分析技术可以满足垃圾邮件综合举报系统的需求,使其有效的降低过滤系统的漏判率和误判率。
其他文献
随着Web服务技术的不断发展,网络上可用的Web服务越来越多,但单个Web服务的功能有限,难以满足复杂的应用需求。因此,将多个Web服务进行组合已成为一种趋势。在Web服务合成方
为保证舆情监控的有效性和高效性,舆情监控系统需实时地获取大量的舆情信息,能高效的存储这些舆情信息并进行海量数据分析。本文中舆情系统数据呈现的特点是数据量大(TB级别)、
入侵检测是保障网络安全的一种重要手段,它可以实现主动防御,能把攻击造成的损失降低到最低。大规模网络中的入侵行为呈现出协作、分布等特点,而依靠唯一的主机或网络很难发
管理信息系统(MIS)可提供准确、系统、全面的原始数据资源且能有效的管理这些数据。但是,随着计算机硬件及计算机应用的不断飞速发展,MIS的开发已不能适应社会的需求,随着对M
近年来,随着航天和航空遥感技术的发展,卫星遥感数据正以惊人的速度增长,如何对海量的遥感数据进行快速的处理,已经成为一个很重要的问题。现在对遥感数据的研究和应用越来越深入,由此产生的遥感算法日益复杂,这直接导致遥感图像处理时间大大增加,满足不了遥感图像的快速处理要求,并造成了大量的遥感图像的浪费。为了实现海量遥感数据的快速处理,本文设计并实现了基于P2P技术的遥感数据快速处理平台。在设计与实现遥感数
拓扑发现作为网络管理最重要的也是最优先要解决的问题得到人们的广泛关注。网络管理软件是否能够很好的发现多种网络拓扑结构成为其是否能够占领市场的一个重要衡量标准。作
以电子商务为基础的网络经济和网络财政的迅速发展,必然导致网络审计技术的出现。而在当今企业中ERP系统使用的多样化情况下,对多种具有平台异构、数据异构的企业ERP数据源的
着色是图像编辑领域中一个活跃的、有挑战性的研究课题。着色最初被定义为给黑白图像、电影或视频加上颜色的计算机辅助处理技术,实际上着色问题的研究,对于多方面的应用都具
H.264是目前国际上新一代的主流视频压缩标准,与先前的标准相比,它采用了许多新的技术以提高编码效率,应用领域更加宽广。然而,高编码效率是以提高运算的复杂度为代价的,这严
随着计算机科学技术和视频编码技术的发展,针对不同的数字视频应用,产生了很多视频编码方案和标准。而多种视频压缩标准的共存和网络的异构性导致了视频设备和网络传输出现兼