基于改进K最近邻模型的反馈学习垃圾邮件过滤系统的设计与实现

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:kangshuangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件技术已经成为一种快捷、经济的现代通信手段,几乎每个网络用户都有自己的邮件信箱。然而电子邮件也日益成为商业广告、病毒、木马等内容的重要载体,垃圾邮件的泛滥成灾给人们的正常生活带来了极大的危害和不便,同时极坏地影响了网络安全,占用了宝贵的带宽资源,占用了邮件服务器大量的存储空间。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。在垃圾邮件过滤研究领域已有的算法中,都是基于规则或基于内容的,其中基于规则的过滤算法需要用户长期定制和维护规则,其实质还是生硬的二值判断,局限在二维空间内进行处理,缺少可信度;基于内容的过滤算法大多数是基于向量空间模型的算法,其中广泛使用的是朴素贝叶斯算法和K最近邻(KNN)算法。虽然朴素贝叶斯邮件过滤器计算简便,但召回率和正确率都难以进一步提高。由于KNN算法计算复杂度太高而不适用于大规模场合和实时性要求高的场合。为此,提出邮件的合法属性和非法属性的概率,提出新的分类算法——基于邮件合法属性和非法属性的分类算法SEAFS算法。SEAFS垃圾邮件过滤算法结合KNN模型和朴素贝叶斯模型的优点,克服了KNN模型和朴素贝叶斯模型的缺点,将普通垃圾邮件过滤方法的线性过滤转化为非线性过滤,既提高了过滤准确度,又达到了令人满意的过滤效率,适用于大规模场合和实时性要求高的场合,有利于大规模邮件内容进行实时在线的垃圾邮件过滤。电子邮件的内容是随时间而变化的,用户的个性化需求也在不断改变,所以在对垃圾邮件的研究中加入了反馈学习过程,以捕捉这些变化,解决这一问题。本文设计并实现了一个实用、高效的垃圾邮件过滤系统,进行了大量实验,获得了良好的过滤效果,实验论证了SEAFS算法在垃圾邮件过滤中的可行性和有效性。
其他文献
随着集成Wi-Fi功能的终端产品日益增多,人们对无线宽带网络的依赖性逐渐增大。目前许多公共场所都已经部署Wi-Fi热点,为Wi-Fi网络的终端用户提供便利的互联网接入条件。但热点
在计算机安全领域中一个重要的挑战就是区分正常和潜在的有害行为的异常。半个世纪以来,研究人员用身份识别和阻挡特殊事件的方法来保护他们的系统。但是,当前持续壮大的IT系
随着科学技术的迅猛发展,科学计算可视化所涉及的领域越来越宽,对象越来越复杂,待处理的数据量越来越大,实时性要求越来越高。矢量场可视化作为科学计算可视化最具挑战性的重
近几年来,我国在公路、铁路、城市交通、跨海越江通道工程、水利水电工程等方面发展迅速。随之而来的工程项目也不断增多,其中隧道隧洞工程占了相当大的比例,然而这些工程往
耳鸣治疗仪应用系统是在传统耳鸣治疗方法的基础上,融入单片机技术,实现耳鸣检测、治疗,以及信息管理的综合系统。目前市面上的耳鸣治疗仪虽然在技术上实现了数字化控制,但是
计算机的普及与互联网的应用加速了信息的增长和传播,促进了信息产业的发展。当今信息的传播速度已经大大超过了人类的掌握能力,又反过来制约了信息产业的发展,新兴的电子商务也
随着社会进入大数据时代,信息充斥着社会的每一个角落,人们对于信息的迫切需求,必将推动着中文信息处理的快速发展。目前,中文信息处理经过了字处理阶段,词处理阶段后,已经进
匿名通信能够隐藏通信双方的身份,是一项重要的安全需求和应用。论文讨论了一种基于公钥加密的P2P模式下的匿名通信方案。本论文的研究成果主要包括:1.论述了国内外多种常用的
学位
VANETs:车辆自组网)是提高道路交通安全和效率的一种新技术。目前全球的机动车数量已经相当庞大,并且一直呈现上升趋势,导致VANETs系统的复杂性与日俱增。如何保证VANETs中数