论文部分内容阅读
近年来网络通讯技术发展飞快,电子邮件已经成为人们日常工作、生活必不可少的交流工具之一。电子邮件广泛应用给人们带来很大便利,但其中隐藏的经济价值也被利用起来,垃圾邮件由此产生并快速发展,其数量之庞大给个人、集体、国家、社会造成了严重的财产损失和安全威胁,因此人们对垃圾邮件过滤技术的发展有着迫切的需求。 本文研究了SVM、Naive Bayes两种垃圾邮件过滤模型,并根据支持向量机的优点改善了Naive Bayes模型,提出了一种改进后的朴素贝叶斯垃圾邮件过滤算法。该算法首先利用朴素贝叶斯算法对样本集进行初次训练,然后通过SVM对训练集样本空间中两类交界处的集合构造一个最优分类超平面,每个样本根据与其最近邻的类型是否相同进行取舍,从而降低样本空间规模,并提高每个样本属性的独立性,最后用Naive Bayes模型对邮件分类。本文研究的内容如下。 (1)深入研究垃圾邮件预处理技术,包括中文分词技术、邮件文本表示算法、特征项提取及特征项选择算法等等。着重研究了支持向量机分类算法和朴素贝叶斯分类算法,并分析它们在文本分类上面的不足之处。 (2)提出了改进后的 Naive Bayes算法并应用在垃圾邮件过滤上面,重点研究了Naive Bayes分类模型、SVM分类模型,并深入分析了基于内容分类的算法思想,结合ictclas中文分词算法并根据特征项的相关性强弱,即用信息增益法对特征属性向量的权重排序,根据得到的有序队列利用SVM构造分类超平面,并修剪冗余向量,最后利用NB算法为已经表示为特征属性向量的文本进行分类。 (3)设计并实现一个垃圾邮件过滤系统,该系统运用多种过滤技术,构成多层整体过滤防御框架,首先是黑/白名单过滤技术,该过滤技术主要用来对邮件进行首次快速过滤,在本次过滤中没有被过滤掉的邮件会使用新的算法模型进行二次再过滤。 最后通过仿真实验对邮件过滤模型进行性能测试及邮件过滤系统各模块功能测试。最终实验结果显示,该算法降低了整个邮件分类过程中的空间复杂度,能够快速得到最优分类特征子集,邮件过滤过程中的分类速度、正确率、召回率都得到了相应的提升。