论文部分内容阅读
电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人的滥用。今天,垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,内容过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。内容过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。 我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本挖掘问题存在着很多不同,我们对之进行了分析并提出了一系列改进。同时我们分析了垃圾邮件过滤技术不能进一步实用化的原因,并针对这些原因提出了一些解决办法。论文的具体内容包括: (1)我们总结和分析了目前基于内容的垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库。 (2)相比传统文本挖掘问题处理的对象,邮件包含了种类更丰富的信息。我们通过对现有工作的总结和分析,站在一个更高的高度,对垃圾邮件过滤所能使用的特征进行了总结和分类。其中有关“属性特征”的研究目前较少,我们对之进行了详细研究,包括属性特征的作用、如何将属性特征与普通文本特征相结合、以及属性特征的选择方法等。 (3)邮件语料样本的差异较大,尤其是在结构方面。我们从实验和理论两方面分析说明了邮件语料这种在结构上的差异性,并分析了这种差异对垃圾邮件过滤造成的负面影响。在此基础上,我们提出了一种基于结构特征的双层垃圾邮件过滤模型,并针对这种模型做了一系列的实验,结果表明常用分类器在使用这种模型后性能有较明显的提升,尤其是Na(?)ve Bayes算法,在使用了这种模型之后,分类效果大大提高。 (4)尽管基于内容的垃圾邮件过滤在技术上已经比较成熟,但是在实用上并没有得到与之相应的广泛应用。我们分析了基于内容的客户端垃圾邮件过滤不能进一步扩大实用的原因,并且提出了一种将逻辑上的客户端过滤器前移到服务器上的模型。同时,我们对用户信息建模和算法的增量式调整做了初步的探索。