论文部分内容阅读
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。 本文首先深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是基于内容的垃圾邮件过滤方法进行了研究。并针对在基于内容的垃圾邮件过滤中使用最广的简单Bayes算法进行分析,提出了一种改进算法。该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。本文还研究了基于复制检测技术的垃圾邮件过滤方法,实现了Nilsimsa算法。最后针对一种以HTML形式发送的包含大量超链接的垃圾邮件,提出基于URL过滤方法。试验结果表明,基于URL的过滤实用有效,能识别基于内容的垃圾邮件过滤算法难于判断的垃圾邮件,是基于内容过滤方法的一种有效补充。 本文的第1章介绍了反垃圾邮件的研究背景、垃圾邮件定义、历史及组成,说明了文章的内容和结构安排。第2章介绍电子邮件系统工作原理及所用协议。第3章分析比较了几种国内外反垃圾邮件技术,重点介绍了垃圾邮件过滤技术,研究出当前垃圾邮件发送者常用的欺骗手段。第4章介绍了简单Bayes算法及在垃圾邮件过滤中的使用,针对其缺点提出一种改进方案,即基于最小风险的Bayes算法,并对二者的性能进行试验比较。本章还实现了近似邮件检测过滤的Nilsimsa算法和基于URL过滤模块。最后一章是全文总结和展望。