论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件问题引起了人们的重视。垃圾邮件不仅降低互联网的服务质量,而且还浪费用户大量的时间和精力,一些垃圾邮件还给社会带来了极大的负面影响。面对垃圾邮件的严峻形势,反垃圾邮件技术已成为目前研究热点之一。目前,市场上反垃圾邮件产品众多,服务器端反垃圾邮件产品价格昂贵,而客户端反垃圾邮件产品又无法做到实时过滤。中小型企业面临这种情况时往往很难选择。本文首先分析国内外反垃圾邮件现状,以教研室项目为背景,将协作过滤的方法应用到反垃圾邮件系统中。通过分析服务器端反垃圾邮件技术,系统选择netfilter/iptables技术来进行实时过滤。整个系统采用透明接入,邮件服务器和该系统相分离,实现邮件服务器的负载平衡。通过对协作过滤思想的分析和研究,设计和实现基于邮箱用户和邮件的协作过滤。在基于邮箱用户的协作过滤中,分析了传统的聚类方法,在传统聚类方法上设计一种折中方法,与以往直接使用聚类对邮件判断是否属于垃圾邮件不同,本文通过聚类方法产生不同的邮件分类,根据邮箱用户对邮件分类情况的背景知识,判断新邮件是否属于垃圾邮件。当邮件特征不能满足分类条件时,本文利用朴素贝叶斯方法来判断该邮件,整个设计充分利用邮件个性化特点。本文中邮件的表示使用向量空间模型,在特征选择方面,基于传统的评分公式TF-IDF,再考虑邮件分类中的二元性,改进了该评分公式,并将改进的公式应用到特征选择中。在基于邮件的协作过滤中,传统方法是对垃圾邮件直接使用MD5方法进行指纹特征提取,判断该指纹是否属于垃圾邮件,本文则首先提取垃圾邮件中具有实际意义的词,然后对这些词进行Rabin指纹运算,最后判断该指纹是否在指纹数据库中。本系统运行在Linux系统上,其内核需要大于2.6.18,考虑维护的方便性,后台管理采用web界面进行设置。最后通过实验对系统进行测试,然后再给出系统在公司的试运行结果,证明该设计方案切实可行,满足企业需求。