论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一。然而,大量出现的垃圾邮件,给用户造成了时间和资源上的浪费,同时也极大地消耗了网络传输资源以及邮件服务器的存储空间,并对网络安全构成威胁。本文针对这一问题展开研究。目前,常用的包括黑名单与白名单技术、基于关键词搜索以及设定过滤规则等方法。在实际使用中已逐渐不能满足过滤需求,基于内容分析的文本分类技术正逐步进入邮件过滤技术当中,并成为当前研究热点。其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯模型。本文结合文本分类技术以及贝叶斯理论,提出了基于粗集属性约简的贝叶斯中文邮件过滤技术,它通过基于粗集属性约简的特征提取,并在贝叶斯分类方法中通过计算属性间的依赖性来提高朴素贝叶斯算法的适用性。同时,本系统还结合了邮件的一些自身特性来提高过滤效果。并围绕这种针对中文邮件的贝叶斯过滤技术来叙述相关的关键技术与方法,其中主要内容有:(1)计算邮件的MD5值,系统通过计算每封邮件的MD5特征值,来统计内容相同邮件出现的次数,当次数超过一定阈值β时,认为这些为垃圾邮件;(2)根据N-最短路径方法对中文邮件进行中文分词处理,通过改进的向量空间模型方法在计算机中表示文本;(3)在特征项选取方面,提出一种基于粗集属性重要度和属性依赖度的约简算法,利用基于粗集的属性约简方法,在不损失原有信息的前提下,(?)综合考虑条件属性和决策属性间的依赖性以及条件属性间的依赖性对约简的影响,获取属性的最优约简;(4)在贝叶斯分类技术中,朴素贝叶斯算法引入了“特征之间互相独立”的假设,而在实际的中文邮件中,特征属性之间往往存有一定关联,当违背条件独立的假定时,简单贝叶斯分类器也表现出相当的鲁棒性,本文把特征间的这种依赖性考虑进来,提出了基于最优属性约简算法的贝叶斯分类器算法。它改善了属性变量间独立性的限制,提高了分类的准确性,使贝叶斯技术适用于更大的范围。此外,本文在此研究的基础上对该过滤方案进行了实验,设计与实现了一个中文垃圾邮件过滤系统。