论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。因此目前反垃圾邮件技术的研究成为了一个热门的话题。目前经常采用的垃圾邮件过滤技术可以分为两类,一类是基于规则的过滤方式。一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另一类是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。常用的文本分类方法有贝叶斯、k-近邻、决策树、boosting等。朴素贝叶斯方法计算简便,在大样本的情况下表现出较好的性能。其他的几种方法有的效果比朴素贝叶斯好一些,但计算较复杂。目前基于文本内容的垃圾邮件过滤器得到了广泛的应用,这类过滤器主要是基于朴素贝叶斯算法。随着基于以贝叶斯为代表的基于内容的反垃圾邮件技术的普及,垃圾邮件发送者也想出了一些行之有效的方法来对付它,例如插入干扰词。然而,当前关于反垃圾邮件的学术研究工作主要都集中在提高文本分类的效果上,而很少注意到算法的抗干扰性问题。对此,我们专门对贝叶斯过滤器的抗干扰性能进行了研究,特地构造了一个使用插入干扰词法的干扰器。试验的结果表明,在干扰器的作用下传统的贝叶斯过滤器的性能下降明显。本文分析了造成这一问题的原因,并试图寻找一种方法来解决这个问题。Teiresias是一种模式分析算法,原用于生物领域的DNA模式分析。2004年IBM将Teiresias应用于反垃圾邮件技术中并取得了很好的效果。我们设计了一种将Teiresias和Bayesian结合的过滤算法,通过使用Teiresias分析的方法生成文本的特征向量来代替传统的基于词频的过滤器,从而解决了Bayesian易受插入干扰词法干扰的问题。测试结果表明,该方法继承了贝叶斯过滤器的计算简便与高精确率,并且在有干扰器作用的情况下仍然有很好的性能表现,具有良好的抗干扰能力。本文的主要创新性工作包含以下内容:(1)从原理上分析了插入干扰词法干扰贝叶斯过滤器的工作机制,并使用插入干扰词法对贝叶斯过滤器的抗干扰性能进行了全面的实验测试。测试结果表明,只要适当地构造干扰词,垃圾邮件就可以很容易地绕过贝叶斯过滤器。(2)提出了一个结合Teiresias的Bayes过滤方法,解决了传统贝叶斯过滤器易受干扰词干扰的问题。进一步的实验测试表明,这个系统有受到有针对性的模式干扰时的抗干扰能力也是比较强的。