基于文本分类的垃圾邮件过滤方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：henan8810

【摘要】

：

电子邮件已经成为人们日常生活中通信、交流的重要手段之一，但垃圾邮件问题也日益严峻，垃圾邮件不仅给网民，企业和服务提供商带来巨大的经济损失而且也造成资源的大量浪费。

【作者】

：

李翔鹰

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2005年期

【关键词】

：

垃圾邮件过滤贝叶斯分类器后缀数组文本聚类电子邮件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

电子邮件已经成为人们日常生活中通信、交流的重要手段之一，但垃圾邮件问题也日益严峻，垃圾邮件不仅给网民，企业和服务提供商带来巨大的经济损失而且也造成资源的大量浪费。随着机器学习方法在文本分类领域的成功，将其应用到基于内容的垃圾邮件过滤成为垃圾邮件过滤的研究热点。本文以提高邮件过滤性能为目标，分析比较了语料的多种预处理方式、分类方法的参数选择对朴素贝叶斯、PG贝叶斯分类方法过滤性能(特别是中文邮件过滤)的影响；在垃圾邮件过滤实时性要求的前提下，提出了多分类器组合策略：按照分类性能和处理代价对分类器进行组合设计，并对结果进行验证。为提高中文邮件过滤的性能，本文提出了一种中文特征聚类方法SAC用于垃圾邮件过滤。SAC中考虑了字词之间的顺序，将文档看作句子“串”的集合，用聚类产生的簇为单位代表语料库中特征的分类知识。实验表明，该方法应用于过滤器可显著提高中文邮件过滤性能。本文设计并初步实现了垃圾邮件过滤系统PKU-AntiSpam。PKU-AntiSpam以内容过滤方法为核心，综合使用多种过滤技术。系统可以针对用户反馈进行自适应过滤，满足垃圾邮件动态变化和个人过滤标准可定制的需要。

其他文献

燕通2.0网络管理系统的设计与实现

本文通过对计算机网络、网络管理技术、网络管理需求以及各种新技术(Web技术、移动计算技术、分布式计算技术、Java技术等)的研究，提出了一个新型的基于Web服务和Java平台的网

学位

网络管理系统管理成本分布式计算

IEEE802.16e节能类型I的休眠策略研究及性能分析

IEEE802.16e是下一代移动无线宽带城域网的最新标准,支持用户节点以车辆速度移动。为了提高移动终端的能量效率,IEEE802.16e提出三种休眠模式,其中,节能类型I用于尽力而为BE

学位

IEEE802.16e节能类型I尽力而为业务非实时可变速率业务多重休假排队模型指数变化休眠延迟

基于绑定逻辑的认证协议分析与设计研究

身份认证/鉴别和密钥建立协议(在本文中简称为认证协议)作为网络安全的基础部分，直接影响着各种网络应用的安全。研究者们发现，虽然协议的参与主体和消息数目都很少，但设计一个

学位

认证协议身份认证计算机网络通信协议网络安全

基于设计模式的车载导航软件系统研究与设计

学位

三角网格光顺处理技术的研究

随着三维扫描技术的成熟和可扫描物体复杂度的提高，三维网格模型日益成为三维物体的一种通用表示方式，其中又以三角网格模型最为常见。作为众多网格模型处理技术的前序步骤，三角

学位

三维扫描三角网格光顺处理技术数字几何处理离散曲率计算法

基于X*树的反k近邻流数据离群点挖掘算法研究

数据流数据挖掘技术是信息科学领域的前沿研究课题之一,被公认为是数据挖掘研究中一个极富应用前景的领域。在众多的数据流数据挖掘算法中,挖掘离群点是其中一个重要的研究内

学位

数据挖掘数据流离群点X*树k近邻反k近邻滑动窗口

Centaur：一种为P2P文件共享系统设计的关键字查询协议研究

P2P文件共享的应用需求直接引发了P2P技术热潮，而文件共享的关键是系统如何支持对文件的查找。针对当前信息资源检索最流行也是最重要的方式——关键字查询，本文详细地分析了已

学位

P2P对等网络文件共享关键字查询

县（市）级矿产规划信息系统的研究与实现

矿产资源是自然资源的重要组成部分，是国民经济可持续发展的健康保证。面对我国日益严峻的矿产资源浪费现象，适时地开展矿产资源规划工作是十分必要和必须的。矿产资源规划是国

学位

矿产资源地理信息系统矿产规划信息系统

嵌入式系统下的多功能XML引擎的设计和实现

随着普适计算时代的来临，以互联网为核心，以无线网和移动网为接入的更加广泛的异构集成网络正在形成，同时嵌入式设备上网也成为趋势，IPv6的应用突破了各种计算设备联网的地址资源

学位

嵌入式系统XML引擎电子邮件智能嵌入式设备网络协议

抗旋转和裁剪的防复印防伪实现技术

现代的复印机无论在功能上还是质量上，都达到了很高的水平。高级的复印机甚至还能实现彩色复印，印出的复制品几乎可达到乱真的程度。但同时，它也使保密防范工作面临新的挑战，机密

学位

防伪技术保密防范防伪底纹傅立叶变换傅立叶功率谱纹理分析防复印技术

基于文本分类的垃圾邮件过滤方法的设计与实现

与本文相关的学术论文