基于SVM的垃圾邮件分类及应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:xfzhang901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的用户飞速增长,电子邮件已经成为最快、最经济的通信手段之一。如何有效地防范垃圾邮件,已经成为网络信息安全领域的一个亟待解决难题。垃圾邮件的数量在过去数年里飞速增长,许多使用电子邮件的人不得不耗费更多的时间来处理。这不仅仅浪费时间,而且浪费服务器存储,浪费带宽。   本文研究和总结了当前主流的反垃圾邮件方法,并结合现有的基于内容的反垃圾邮件方法和Web分类、Web过滤的先进技术,针对具有HTML的垃圾邮件的分类方法进行了改进,并基于此算法设计和实现了Spam-Blocker系统。主要工作如下:   以当前技术发展和Spare-Blocker的需求和应用场景研究开始,讨论了反垃圾邮件工作的现状、发展、主要过滤手段等,来指导spam-Blocker系统的设计和开发。   实现了经典的基于文本分类的反垃圾邮件方法,使用TF-IDF进行特征表示,针对文本向量维度高的特点,使用MI、IG等方法进行特征选取,使用SVM进行建模和分类,并与朴素贝叶斯为基准进行了分类效果比较。   对当前主流的Web分类和Web过滤技术进行了研究,并从中选取了适合应用到反垃圾邮件领域的手段和方法,对HTML邮件进行预处理,提出了WTF-IDF的特征表示方法,能够更大程度的保存HTML中的格式、URL、图像等超文本信息,使之能够有助于提高分类结果。通过实验,将利用Web技术进行HTML预处理的邮件分类手段与经典的基于内容的文本分类手段进行了对比,实验结果表明在时间消耗增加在可接受范围之内的情况下,提高了HTML邮件分类的准确率。   将上述结果应用到实践领域之中,实现了基于COM控件技术的Spam-Blocker系统,具有使用方便灵活、分类效果好等特点。并在此基础上,完成了基于用户反馈自定义个性化分类器、统计图表、黑白名单等功能,并与当前流行的邮件客户端Outlook2003相结合,得到了较好的使用效果。  
其他文献
XBRL(eXtensible Business Reporting Language,可扩展商业报告语言)是一种基于XML的报告语言。XBRL已经在证券、保险、银行等各金融行业得到了广泛的支持和应用。在XBRL的应
学位
立体显示技术经过几十年的发展,取得了很大的进展。目前,对立体显示技术主要分为立体眼镜、Autostereoscopic3D显示、体三维显示和全息三维显示技术四大类,其中立体眼镜和Autost
学位
软件需求是软件研发项目初始估计和计划的基础,同时也是软件产品开发和验证的基础。根据Standish Group从1994年到1997年的Chaos Reports证实,导致项目失败的最重要的原因与需
足球比赛是大众普遍喜爱的一种体育运动,每年都有许多的足球比赛电视转播。一场足球比赛通常在90分钟以上,由于视频媒体的时序性和无结构性,使得对于这些大量的视频媒体的人工编
计算机动画的人工生命方法受到“人工生命”学科的启发,通过建立动物及其生存环境的模型来生成动画,将自然生态系统中的动物生活逼真的表现出来。这种动画是基于人工生命的,人工
学位
最优化问题一直是许多专家学者研究的热点。人们在工程技术、科学研究和经济管理等诸多领域中经常会遇到最优化问题。为解决最优化问题,人们提出了很多优化算法,比如神经网络
H.264/AVC是由ITU-T的VCEG(视频编码专家组)和ISO的MPEG(运动图像专家组)共同制定的新的视频编码标准。H.264使用很多先进的视频编码方法,与现有标准相比,它可以获得更高的压缩
学位
随着信息科技的日益发展,数据存储量的快速膨胀,人们经常会面对海量数据的检索问题。为了提高数据检索效率,数据库提供商需要建立一个可伸缩的网络服务模型满足不断增长的负载需
学位
四边形、六面体网格属于半规整网格,除了有限的奇异点(边)外,其他部分都由规整网格组成。相比不规整网格如三角形、四面体网格,四边形和六面体网格在整体结构和单元性质方面具有天
随着互联网和信息技术的迅速发展,文本数据规模指数爆炸式增长,网络已经成为一个丰富的数据宝矿。可是大量的数据不等于大量有价值的信息,如何有效地从数据中抽取知识挖掘价值,是