基于改进Naive Bayes算法的邮件过滤系统研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:reg8c4user
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来网络通讯技术发展飞快,电子邮件已经成为人们日常工作、生活必不可少的交流工具之一。电子邮件广泛应用给人们带来很大便利,但其中隐藏的经济价值也被利用起来,垃圾邮件由此产生并快速发展,其数量之庞大给个人、集体、国家、社会造成了严重的财产损失和安全威胁,因此人们对垃圾邮件过滤技术的发展有着迫切的需求。  本文研究了SVM、Naive Bayes两种垃圾邮件过滤模型,并根据支持向量机的优点改善了Naive Bayes模型,提出了一种改进后的朴素贝叶斯垃圾邮件过滤算法。该算法首先利用朴素贝叶斯算法对样本集进行初次训练,然后通过SVM对训练集样本空间中两类交界处的集合构造一个最优分类超平面,每个样本根据与其最近邻的类型是否相同进行取舍,从而降低样本空间规模,并提高每个样本属性的独立性,最后用Naive Bayes模型对邮件分类。本文研究的内容如下。  (1)深入研究垃圾邮件预处理技术,包括中文分词技术、邮件文本表示算法、特征项提取及特征项选择算法等等。着重研究了支持向量机分类算法和朴素贝叶斯分类算法,并分析它们在文本分类上面的不足之处。  (2)提出了改进后的 Naive Bayes算法并应用在垃圾邮件过滤上面,重点研究了Naive Bayes分类模型、SVM分类模型,并深入分析了基于内容分类的算法思想,结合ictclas中文分词算法并根据特征项的相关性强弱,即用信息增益法对特征属性向量的权重排序,根据得到的有序队列利用SVM构造分类超平面,并修剪冗余向量,最后利用NB算法为已经表示为特征属性向量的文本进行分类。  (3)设计并实现一个垃圾邮件过滤系统,该系统运用多种过滤技术,构成多层整体过滤防御框架,首先是黑/白名单过滤技术,该过滤技术主要用来对邮件进行首次快速过滤,在本次过滤中没有被过滤掉的邮件会使用新的算法模型进行二次再过滤。  最后通过仿真实验对邮件过滤模型进行性能测试及邮件过滤系统各模块功能测试。最终实验结果显示,该算法降低了整个邮件分类过程中的空间复杂度,能够快速得到最优分类特征子集,邮件过滤过程中的分类速度、正确率、召回率都得到了相应的提升。
其他文献
在安全的网络通信中,涉及通信的各方必须通过某种形式的身份验证机制来证明他们的身份,验证用户的身份与所宣称的是否一致,然后才能实现对于不同用户的访问控制和记录。随着计算
随着计算机技术的发展,尤其是关系型数据库技术日益成熟,管理信息系统已经成为现代企业的运作基础,成为有效地管理企业在运营过程中产生的大量数据和信息的强有力工具。但是,以单
为了阐述网上智能中的知识发现,该文以电子商务中的知识发现为例,具体分析了在B2C电子商务网站中进行知识发现的流程、技术和应用,并对未来的发展进行了展望.该文采用的知识
传输控制协议(TCP)提供了端到端的可靠的数据流传输服务,现已成为Internet协议簇中传输层的重要部分。然而这种为传统的有线网络设计的可靠传输协议在无线网络环境下性能却严
近几十年来,地理信息系统(GIS)有了长足的发展,并随着计算机和网络技术的发展不断扩大其应用领域,生产、生活和国防等方方面面对GIS的需求和依赖正与日俱增,GIS软件在功能上已经
随着空中交通日益繁忙,我国已经加快空中交通管制建设的步伐。然而由于历史的原因,我国的空中交通管制的水平较之西方发达国家显得比较落后。由于国外空中交通管制产品价格昂
该文讨论了公钥密码体制研究的背景、意义和现状,描述了椭圆曲线上的基本算法及有限域上的四则运算.并在分析椭圆曲线密码的攻击现状和保密强度的基础上,探讨了适合密码体制
网络安全技术包括防火墙、数据加密、数据认证、VPNs智能卡、IDSs、访问控制等,这当中防火墙技术被使用最为广泛,它能使用访问控制机制阻止非授权访问,但是防火墙不能防止合
网格是属于分布式计算的一种方法,而目前的另一个分布式计算方法是Peer-to-Peer(P2P)技术.P2P与网格技术有许多异同点.总的说来,二者都关注相同的问题,即在虚拟组织中的资源
随着图像压缩技术的发展,使用一般的压缩系统处理后的图像信号带宽大大压缩,可以在一般的通信系统中传输,例如现在的会议电视、可视电话等。但这些压缩系统设备复杂,价格昂贵,仍需