论文部分内容阅读
电子邮件技术已经成为一种快捷、经济的现代通信手段,几乎每个网络用户都有自己的邮件信箱。然而电子邮件也日益成为商业广告、病毒、木马等内容的重要载体,垃圾邮件的泛滥成灾给人们的正常生活带来了极大的危害和不便,同时极坏地影响了网络安全,占用了宝贵的带宽资源,占用了邮件服务器大量的存储空间。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。在垃圾邮件过滤研究领域已有的算法中,都是基于规则或基于内容的,其中基于规则的过滤算法需要用户长期定制和维护规则,其实质还是生硬的二值判断,局限在二维空间内进行处理,缺少可信度;基于内容的过滤算法大多数是基于向量空间模型的算法,其中广泛使用的是朴素贝叶斯算法和K最近邻(KNN)算法。虽然朴素贝叶斯邮件过滤器计算简便,但召回率和正确率都难以进一步提高。由于KNN算法计算复杂度太高而不适用于大规模场合和实时性要求高的场合。为此,提出邮件的合法属性和非法属性的概率,提出新的分类算法——基于邮件合法属性和非法属性的分类算法SEAFS算法。SEAFS垃圾邮件过滤算法结合KNN模型和朴素贝叶斯模型的优点,克服了KNN模型和朴素贝叶斯模型的缺点,将普通垃圾邮件过滤方法的线性过滤转化为非线性过滤,既提高了过滤准确度,又达到了令人满意的过滤效率,适用于大规模场合和实时性要求高的场合,有利于大规模邮件内容进行实时在线的垃圾邮件过滤。电子邮件的内容是随时间而变化的,用户的个性化需求也在不断改变,所以在对垃圾邮件的研究中加入了反馈学习过程,以捕捉这些变化,解决这一问题。本文设计并实现了一个实用、高效的垃圾邮件过滤系统,进行了大量实验,获得了良好的过滤效果,实验论证了SEAFS算法在垃圾邮件过滤中的可行性和有效性。