论文部分内容阅读
当今社会,电子邮件已经成为人们日常生活中通信和交流的重要方式之一但是垃圾邮件也伴随着互联网信息技术的发展而严重泛滥,带来诸多危害。基于内容的垃圾邮件检测是目前最主流的反垃圾邮件技术之一,在反垃圾邮件领域得到了广泛应用。特征降维是基于内容的垃圾邮件检测中的一项关键技术。由于通常使用向量空间模型来表示邮件文本,特征向量空间通常呈现高维特性,引发“维数灾难”。因此,必须对原始高维特征空间进行降维处理。文本特征降维方法一般分为两类:特征提取和特征选择。特征选择算法因其实现简单,计算复杂度小,性能比较好等优点,被广泛应用在基于内容的垃圾邮件检测中。常用的特征选择算法如信息增益(IG),卡方统计(CHI)等,均基于特征项之间相互独立的假设,只考虑了特征项与目标类别之间的关联度来构造评价函数,而忽略了实际情况下,不同特征项之间存在不同程度的关联,使得特征子集中存在了大量的冗余,因而分类性能不够理想。文本采用互信息量(MI)来衡量特征项之间的冗余程度,提出了一种新型的特征选择算法OMFS (OCFS-mRMR Feature Selection)。实验证明,OMFS算法能够保持很高的计算效率,有效去除特征子集中的冗余,使垃圾邮件的分类性能得到很大的改善。本文的主要工作和创新点主要有以下几点:(1)针对垃圾邮件特征空间冗余问题,从文本分类领域引入mRMR特征选择算法并对其进行改进,提出了一种新型的特征选择算法OMFS。(2)基于(?)natlab平台,WEKA Java API和Eclipse开发环境,通过程序设计,构建了基于内容的垃圾邮件检测仿真实验系统。基于中英文五种不同的公共垃圾邮件语料库和三种分类算法,设计并实现了一系列垃圾邮件检测分类对比实验。(3)采用分类精准度和CPU实时运算时间作为评价指标,并从有效性和计算效率两个方面对实验结果进行了科学、详细的分析,总结了实验规律,验证了OMFS特征选择算法能够有效去除特征项之间的冗余同时保持很高的计算效率,性能较传统算法得到显著改善。