论文部分内容阅读
随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重,网络用户平均每天收到的垃圾邮件数量已经超过了正常邮件,并有进一步增长的趋势。面对肆虐的垃圾邮件,人们通常采用的过滤技术有:白名单与黑名单技术、规则过滤技术、基于关键词匹配的快速过滤技术等等,但是这些技术人为因素较多,面对不断变化的垃圾邮件显得力不从心。
另一方面,由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类和信息过滤的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。
本文总结了常用的基于机器学习的文本分类技术和方法;并在真实邮件语料上研究了不同特征选取方法和特征集大小对各分类方法性能的影响,实验结果表明特征选取方法的重要性随分类器的不同差别很大;简单的“Bag of Words”过滤模型对垃圾邮件过滤有很好的效果。
在使用分类模型对垃圾邮件进行过滤前通常需要垃圾邮件和正常邮件两类样本对分类模型进行训练,但实际上我们往往能获取到大量的垃圾邮件而由于隐私等法律上的一些问题,使获取正常邮件存在一定的困难。从这个实际问题入手本文详细分析了k-近邻算法及其优缺点,提出并实现了一种改进的k-近邻算法。本文在真实邮件语料上,研究了邮件预处理和决策函数对改进的k-近邻算法的影响,并将改进的k-近邻算法与传统的k-近邻算法做了对比实验,结果表明:改进的k-近邻算法过滤速度快、学习训练简便,在只有垃圾邮件一类样本的情况下就获得了较好的过滤效果。
本文最后根据以上研究,设计实现了一个基于内容的垃圾邮件综合举报系统。系统采用改进的k-近邻算法做复审快速内容过滤,使用最大熵分类器做复审二级内容过滤,在实际应用中,得到了不错的过滤性能。