基于适应概念漂移的垃圾邮件过滤系统设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ytlytl1009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件作为当今一种方便、快捷的互联网信息交流方式,受到越来越多人的青睐。但是垃圾邮件的出现,并且日益严峻,使这种便利的方式给人带来了烦恼。反垃圾邮件技术已成为互联网信息领域的一个研究热点,基于内容的反垃圾邮件过滤技术更是一种成熟而且有效的技术方案。基于朴素贝叶斯的垃圾邮件过滤方法是当前基于文本内容过滤方法的有效算法之一。随着时间的变化,垃圾邮件的特征也在不断的改变,然而传统的训练模型必须重新进行训练才能适应新的邮件特征的改变。因此,传统的朴素贝叶斯过滤方法必须与其它技术结合才能有效的适应新特征的变化。本文提出的实例选择-分类器加权集成算法,是采用数据挖掘领域的流问题解决方案来适应邮件流的问题的解决思路,成为当前的研究热点。本方法是在研究朴素贝叶斯的基本原理,分析其优缺点的基础上,基于传统分类器的静态特性,将概念漂移的思想应用到垃圾邮件过滤系统上,在中文的CCERT“2005-Jul”数据集上,取得了不错的效果,不仅在从精度上,更重要的适应性上,从不适应到适应,从精度低到精度高,完成了一个动态的适应过程。1)本文首先分析了中文词语的特点和常见的词典结构,解读了朴素贝叶斯算法的基本原理,概念漂移的基本思想,同时给出了通用分类算法评价标准。2)在第三章,描述了整个系统的总体目标,以及本模块的总体架构,并给予了模块概括性的描述。3)在第四章,阐释模块内部各个功能点的详细设计和实现,提供了伪代码级的说明了详述。4)在测试和分析章节,首先详述了中文和英文的语料集,并就该模块系统的参数和数据集选取给予了详细的说明,在概念漂移发生或未发生时,同传统分类器,在精度和适应性上的对比,并做出了详细的分析。综上所述,本系统提出对传统领域的垃圾邮件过滤模型的适应性研究是一个有实践价值、理论意义的尝试。
其他文献
本文主要研究IEEE802.16e下行同步和OFDMA系统多小区初始同步,并根据IEEE802.16e OFDMA系统的要求实现下行链路完整过程,重点讨论接收机的同步部分,对经典算法进行仿真并根据
多输入多输出(Multiple Input Multiple Output,MIMO)技术通过在系统发射端和接收端配置多根天线,可以为无线通信传输提供更高的系统容量和可靠性,是无线通信领域的重要研讨
IEEE802.11是被WLAN系统广泛使用的标准。WLAN系统被大多数国际制造商支持并且占有很大的世界市场份额。近几年来,无线实时多媒体服务成为了通信系统的发展趋势。因此对WLAN
扩频通信系统最初是为了满足军事通信中抗干扰能力强,隐蔽保密性高等要求而发展起来的,在测距测速、卫星导航及目标探测等抗干扰军事通信领域占有重要的地位,同时由于其具有
无线Mesh网络(Wireless Mesh Network,WMN)以其组网灵活方便、可靠、自愈性强、无需基础通信支持等特点,成为了能够在突发状况下支持应急通信的有效技术。针对先前所研究面向矿
随着经济全球化和信息化的发展,人们对海上通信的需求越来越大。而卫星通信具有的独特优势使其成为海上通信的主角。因此,性能稳定、成本低廉的船用移动卫星通信系统成为一种迫