论文部分内容阅读
随着Internet的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件因其快捷、方便和成本低的特点给人们的生活带来很大的便利。然而垃圾邮件的泛滥也给人们的生活带来许多苦恼,因此如何有效地对垃圾邮件进行过滤成为一个迫在眉睫的问题。随着文本分类技术的发展,基于内容的垃圾邮件过滤成为一种有效的垃圾邮件过滤方法。SVM在文本分类中得到了广泛的应用,并取得了很好的分类效果。本文研究基于内容的垃圾邮件过滤方法,主要针对垃圾邮件过滤中的特征选择方法进行深入研究,并将SVM应用到垃圾邮件过滤中。本文主要工作如下:(1)由于中文电子邮件的分词准确性直接影响到垃圾邮件过滤的精度,而电子邮件是通过网络传播,所以经常会出现很多新词,对这些新词的识别很大程度的影响到最后的分类结果。针对这种情况,本文在垃圾邮件过滤系统中采用基于字符串匹配和基于统计的分词方法。基于字符串匹配的方法能够识别机器词典存在的词,其速度快、精度高。而基于统计的分词方法则可以识别很多新词,把网络新流行的词通过计算识别出来。(2)由于垃圾邮件过滤系统中的特征选择至关重要,合理的特征选择方法不但可以减少邮件的特征个数,提高计算的速度,而且可以消除冗余特征,提高垃圾邮件过滤算法的精度,因此本文对垃圾邮件过滤系统中的特征选择方法进行研究,提出一种改进的CHI特征选择方法和一种新的联合特征选择方法。实验结果表明,与传统的特征选择方法相比,本文提出的两种特征选择方法使垃圾邮件过滤的精度有了很大提高,这充分验证了本文方法的有效性。(3)由于SVM在解决小样本、高维和非线性模式识别问题中有其特殊优势,因此本文在垃圾邮件过滤系统中采用SVM作为垃圾邮件过滤系统的分类器。另外,为了提高SVM的训练速度,本文在SVM的训练过程中采用LIBSVM快速算法。