基于统计模型的垃圾邮件过滤技术研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:dxlwwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件己经成为人们日常生活中通信、交流的重要手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet,给用户和ISP造成了巨大的损失。因此,反垃圾邮件成为Internt目前亟待解决的问题。目前常用的反垃圾邮件技术主要有:基于信件源的技术和基于内容的技术两类。其中基于内容的技术主要是将数据挖掘和机器学习的理论引入到垃圾邮件内容过滤中来,又可分为基于规则和基于统计两类。在众多基于统计的方法中,朴素贝叶斯(Na(?)ve Bayes,NB)是一种简单的机器学习方法,它通过区分垃圾邮件(Spam)和正常邮件(Ham)的特征构建统计模型进行自学习。在新邮件到来时,由分类器根据训练学习的统计规律预测新邮件为垃圾邮件或正常邮件的可能性,将邮件归入可能性最大的那一类。NB以其运算速度快、易于实现等特点在垃圾邮件过滤中得到了广泛的应用。NB垃圾邮件过滤模型(NBF)中的关键问题有:邮件文本的形式化描述,特征词选取方法,概率计算模型等。本文针对这些问题进行了深入的研究,在分析传统方法的基础上,对其进行了有效的改进,并做出了一些大胆的尝试。本文主要研究了以下内容:1)概述了垃圾邮件过滤问题的研究现状,包括垃圾邮件的定义、危害、特征分析以及常用的过滤技术;2)介绍并详细分析了通用的邮件语料库以及评价体系;3)详细分析了传统的NBF模型的实现方法及关键问题;4)将文本分类中常用的特征词方法引入NBF模型中,综合分析各种方法的特点,通过实验发现在Ling-Spam语料上采用CHI方法能使NBF过滤效果最优;5)针对期望交叉熵(ECE)特征词选取方法的不足,提出了改进的期望交叉熵(AECE)选取方法;6)综合分析了NBF中现有的概率计算模型,通过实验比较,选出了最优计算模型,在计算模型的最优选择和特征词选取方法优化的基础上,提出了在分类时通过特征词加权的方法,提高过滤精度,从而实现了改进Na(?)ve Bayes的垃圾邮件过滤模型(A-NBF);7)综合分析了传统的基于最小风险的Na(?)ve Bayes过滤模型的特点,提出一种新的过滤模型—基于直线几何分割的贝叶斯邮件过滤模型(LGDNBF),定义了新的风险因子,以更加准确地描述风险,从而提高了过滤精度。
其他文献
三角形网格曲面参数化可以看作是该网格曲面和参数域之间的一个——映射。近年来,网格参数化的研究已经取得了一定的进展,出现了很多参数化方法。网格参数化的理想目标是参数域
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。文本自动分类技术
数据采集和存储技术的进步使得人们拥有数据的能力急剧提高,并且已有数据还在不断呈指数级的速度增长。隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述以及
机器人足球世界杯以多智能体系统(MAS)和分布式人工智能(DAI)为主要研究背景。其主要目的是通过提供一个标准的比赛平台,促进机器人学和人工智能的研究与发展。为了能让一个机
无线局域网WLAN技术的发展使人们摆脱了线缆的束缚,但IEEE 802.11中的有线等效保密协议WEP存在着不少漏洞,且WLAN传播信号具有开放性,使得WLAN的安全性问题日益突出。采用VPN
本文对基于插件的性能测试框架的设计与实现进行了研究。文章构建了一个基于插件的性能测试框架,基于插件的性能测试框架为开发人员提供了一个收集性能数据的平台,开发人员可以
随着自动化技术的发展,传感器的状态对设备控制性能的影响越来越大。传感器状态在线诊断技术正成为一个越来越重要的研究课题。 本文对轧机速度传感器状态和设备性能之间的
新的虚拟化技术带来了新的虚拟化架构,这种新的架构为安全监控提供了一种新的思路,即在管理域中监控客户域中的操作系统,监控软件是在客户操作系统的外部。这种新的监控架构,需
随着信息技术的飞速发展,电子政务成为近几年信息化研究的热点,电子政务的发展为我国政府带来了巨大的活力,但是信息孤岛的存在大大阻碍了电子政务的发展。信息孤岛降低了电子政
本文通过分析研究现有的反垃圾邮件过滤技术,结合垃圾邮件自身的特点,从电子邮件的文本内容出发,将Winnow算法应用于垃圾邮件过滤,试图构造一种速度快、计算简便、性能好、反馈学