基于内容的多级垃圾邮件过滤系统研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:WUST_SXC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的垃圾邮件过滤就是从电子邮件的内容入手,使用文本分类、机器学习算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但召回率和正确率难以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。Winnow是一种错误驱动的在线学习线性分类算法,其在线学习的特性非常适合“实时学习”的增量式反馈,本文将贝叶斯方法与winnow算法相结合,构造了一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。实验表明,该过滤方法的分类效果优于单一的贝叶斯方法或者winnow方法。本文的主要工作如下:(1)在分析了常用特征提取方法的基础上,提出了一种基于成词概率的语词特征提取方法。一次扫描待分类邮件,通过成词置信参数控制特征提取的速度与成词准确度,使其复杂度适应邮件分类算法的需要。(2)研究了现有的贝叶斯分类方法,并在此基础上设计了一种简单快速的贝叶斯MDA层过滤算法,该算法能够通过成词参数以及代价函数控制过滤敏感度,适应于不同应用环境下的过滤需求。(3)利用winnow算法的反馈学习性能较好特点,为每个用户生成一个Winnow线性分类函数。将其用于对贝叶斯一级过滤中垃圾邮件表征不强的邮件进行二次过滤,同时通过用户行为检测来判断是否误分类,并以此为依据对分类函数进行修正。以达到个性化过滤的要求。(4)设计了一个基于内容的多层过滤系统的基本框架,将其作为垃圾邮件原型过滤系统进行了模拟实验。
其他文献
近几年,虚拟化技术在资源整合以及安全隔离等方面的优势日渐突出,成为学术界和工业界关注的热点。然而,虚拟机天然的隔离特性使得虚拟机之间的通信和数据传输变得非常困难。
随着Internet的发展,通过互联网络人们可以轻松获得想要的数字产品。但是由于网络共享制度的不规范,对数字产品的非法摄取、使用和分发严重地损害了数字产品版权所有者的合法权
近年来,随着信息传播的全球化,数据容量呈爆炸式增长,海量数据分布在各种异构的存储资源上,给用户的访问增加了难度。因此,如何在广域环境中管理具有异构性的海量数据逐渐成为计算
学位
P2P,即端对端网络,又称为对等计算,就是通信的主机互相互为服务器,每台主机都享受其他机器提供的服务,也为别的机器提供服务。这一模式将服务由中心推向了边缘,充分利用了网络边缘
在数据网格环境下,网格资源、网格系统软件和网格用户行为都具有高度、频繁的动态变化的特性,迫切地需要合适的网格监控系统来实时、准确地获得网格信息,为网格资源调度及性能优
H.264是由ITU-TVCEG和ISO/IEC MPEG联合推出的新一代国际视频编码标准。和以前的视频编码标准相比,它采用了一系列的新技术,使得H.264满足了在尽可能低的带宽下传输高质量的
近年来,软件行业飞速发展。Web技术的发展是个代表,它的发展促进了企业应用软件的开发。由于业务的发展,需求的不断变化,很多企业面临着如何更新他们的系统,以使得系统适应市场的
随着网络的飞速发展,需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙之类的传统网络安全技术己不能很好地满足目前网络安全的需求。网络安全问题正逐渐
P2P技术为网络应用提供了一种新的思想,它打破了传统的C/S方式的网络应用,引入了对等实体的概念。基于P2P的网络存储技术在P2P覆盖网上构建存储系统,为存储技术研究提供了一种新