论文部分内容阅读
近年来,电子邮件以其方便、快捷、低成本等优点已成为互联网交流沟通的重要途径,但是随之而来的是海量的垃圾邮件。垃圾邮件已经成为各国共同面临的棘手问题,已受到各国研究机构的广泛关注,研究反垃圾邮件的方法有着深远的社会意义和巨大的经济价值。
本文分析了反垃圾邮件的研究现状,指出基于内容的邮件过滤是当前解决垃圾邮件问题的主要研究方向之一。其中的代表是Bayes方法,它召回率高并且在效率和存储空间上要优于其它方法,但是不具备渐增自适应更新的能力,而且垃圾邮件制造者也在制造隐蔽性更高的垃圾邮件绕过过滤器。此外,基于人工免疫系统的邮件过滤是一种新兴的邮件过滤方法,具有召回率和准确率高,自更新和自适应能力较强的特点,但是比传统的邮件过滤方法的计算开销要大很多,有待进一步的研究。
本文综合了基于概率统计的邮件过滤系统和基于传统人工免疫系统的过滤系统的优点,并针对其各自的不足,利用免疫系统中的一种新理论——危险理论,提出了一个基于危险理论的邮件过滤模型,清晰地定义了危险理论中的三种信号以及免疫系统中的抗原和抗体等细胞与邮件过滤模型中各元素的对应关系,它召回率和准确率高,而且具有计算开销小、容错性高、自适应性和自调节性强等危险理论的天生特点。然后在Windows系统上实现了该模型,分别使用中英文邮件集对系统进行了训练和测试并给出了测试数据及其数据分析。最后做出了总结并探讨了该模型的扩展以及未来邮件过滤的研究方向。