论文部分内容阅读
随着互联网的发展和普及,电子邮件已经成为人们一个相互交流、获取资讯的重要渠道。伴随着信息技术的发展垃圾邮件也给人们带来了诸多的危害。在解决垃圾邮件问题众多的途径和思路中,基于内容的垃圾邮件检测是目前最主流的反垃圾邮件方法之一。文本分类与特征降维分别是基于内容的垃圾邮件检测不可或缺的两个部分。文本分类是在已知类别标号的训练集上通过寻找规律或统计学习建立垃圾邮件检测分类模型的方法。基于内容的分类算法不需要考虑语义环境,只需对文本进行相关统计计算,具有自学习,自适应能力和较高的准确率。特征降维是基于内容的垃圾邮件检测中的另一项关键流程。使用向量空间模型来表示邮件文本时,特征向量空间通常呈现高维特性,不利于垃圾邮件检测系统的运行。对原始高维特征空间进行降维处理就成了垃圾邮件检测中的重要步骤。特征降维方法中的特征选择算法具有性能较好,可行性强等优点,是基于内容的垃圾邮件检测中的重要研究对象。本文对不同垃圾邮件检测组合进行了研究,通过它们性能的优劣对比,在此基础上提出一种基于邮件内容特征的结合正交质心特征选择算法(Orthogonal Centroid Feature Selection, OCFS)和支持向量机(Support Vector Machine, SVM)的新型垃圾邮件检测架构OCFSVM,该组合从垃圾邮件内容特征入手,通过OCFS算法成功地从原始高维特征空间中选出足够类别代表能力的特征子集,通过SVM学习方法对降维后的垃圾邮件语料库低维向量空间模型分类运算,并将其作垃圾邮件检测的基础架构。本文的主要工作和创新点如下:(1)通过对垃圾邮件特征降维阶段及分类阶段的分析,在特征降维阶段引入应用较少的OCFS算法,结合文本分类领域的SVM算法,提出了一种结合OCFS和SVM的新型垃圾邮件检测架构OCFSVM。并在matlab、C#、Eclipse平台和怀卡托智能分析环境(Waikato Environment for Knowledge Analysis, Weka)上,实现了垃圾邮件检测架构OCFSVM.(2)在垃圾邮件检测实验平台上,引入PU系列英文语料库、ZH1中文语料库、中英文混杂自选垃圾邮件集,三种特征降维方法,三种文本分类算法,进行了综合有效的OCFSVM检测架构性能的对比实验。(3)以精准度和F值为评价指标,在对实验结果进行分析的基础上总结出各检测组合的规律,验证了新型垃圾邮件检测架构OCFSVM能够在不同的邮件环境下对垃圾邮件实施有效的检测,且较传统的检测架构性能得到了较大的提高。