基于文本分类的垃圾邮件过滤方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:henan8810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,垃圾邮件不仅给网民,企业和服务提供商带来巨大的经济损失而且也造成资源的大量浪费。 随着机器学习方法在文本分类领域的成功,将其应用到基于内容的垃圾邮件过滤成为垃圾邮件过滤的研究热点。 本文以提高邮件过滤性能为目标,分析比较了语料的多种预处理方式、分类方法的参数选择对朴素贝叶斯、PG贝叶斯分类方法过滤性能(特别是中文邮件过滤)的影响;在垃圾邮件过滤实时性要求的前提下,提出了多分类器组合策略:按照分类性能和处理代价对分类器进行组合设计,并对结果进行验证。 为提高中文邮件过滤的性能,本文提出了一种中文特征聚类方法SAC用于垃圾邮件过滤。SAC中考虑了字词之间的顺序,将文档看作句子“串”的集合,用聚类产生的簇为单位代表语料库中特征的分类知识。实验表明,该方法应用于过滤器可显著提高中文邮件过滤性能。 本文设计并初步实现了垃圾邮件过滤系统PKU-AntiSpam。PKU-AntiSpam以内容过滤方法为核心,综合使用多种过滤技术。系统可以针对用户反馈进行自适应过滤,满足垃圾邮件动态变化和个人过滤标准可定制的需要。
其他文献
本文通过对计算机网络、网络管理技术、网络管理需求以及各种新技术(Web技术、移动计算技术、分布式计算技术、Java技术等)的研究,提出了一个新型的基于Web服务和Java平台的网
IEEE802.16e是下一代移动无线宽带城域网的最新标准,支持用户节点以车辆速度移动。为了提高移动终端的能量效率,IEEE802.16e提出三种休眠模式,其中,节能类型I用于尽力而为BE
身份认证/鉴别和密钥建立协议(在本文中简称为认证协议)作为网络安全的基础部分,直接影响着各种网络应用的安全。研究者们发现,虽然协议的参与主体和消息数目都很少,但设计一个
学位
随着三维扫描技术的成熟和可扫描物体复杂度的提高,三维网格模型日益成为三维物体的一种通用表示方式,其中又以三角网格模型最为常见。作为众多网格模型处理技术的前序步骤,三角
数据流数据挖掘技术是信息科学领域的前沿研究课题之一,被公认为是数据挖掘研究中一个极富应用前景的领域。在众多的数据流数据挖掘算法中,挖掘离群点是其中一个重要的研究内
P2P文件共享的应用需求直接引发了P2P技术热潮,而文件共享的关键是系统如何支持对文件的查找。针对当前信息资源检索最流行也是最重要的方式——关键字查询,本文详细地分析了已
矿产资源是自然资源的重要组成部分,是国民经济可持续发展的健康保证。面对我国日益严峻的矿产资源浪费现象,适时地开展矿产资源规划工作是十分必要和必须的。矿产资源规划是国
随着普适计算时代的来临,以互联网为核心,以无线网和移动网为接入的更加广泛的异构集成网络正在形成,同时嵌入式设备上网也成为趋势,IPv6的应用突破了各种计算设备联网的地址资源
现代的复印机无论在功能上还是质量上,都达到了很高的水平。高级的复印机甚至还能实现彩色复印,印出的复制品几乎可达到乱真的程度。但同时,它也使保密防范工作面临新的挑战,机密