基于SVM的中文垃圾邮件过滤

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:fengxun1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件因其快捷、方便和成本低的特点给人们的生活带来很大的便利。然而垃圾邮件的泛滥也给人们的生活带来许多苦恼,因此如何有效地对垃圾邮件进行过滤成为一个迫在眉睫的问题。随着文本分类技术的发展,基于内容的垃圾邮件过滤成为一种有效的垃圾邮件过滤方法。SVM在文本分类中得到了广泛的应用,并取得了很好的分类效果。本文研究基于内容的垃圾邮件过滤方法,主要针对垃圾邮件过滤中的特征选择方法进行深入研究,并将SVM应用到垃圾邮件过滤中。本文主要工作如下:(1)由于中文电子邮件的分词准确性直接影响到垃圾邮件过滤的精度,而电子邮件是通过网络传播,所以经常会出现很多新词,对这些新词的识别很大程度的影响到最后的分类结果。针对这种情况,本文在垃圾邮件过滤系统中采用基于字符串匹配和基于统计的分词方法。基于字符串匹配的方法能够识别机器词典存在的词,其速度快、精度高。而基于统计的分词方法则可以识别很多新词,把网络新流行的词通过计算识别出来。(2)由于垃圾邮件过滤系统中的特征选择至关重要,合理的特征选择方法不但可以减少邮件的特征个数,提高计算的速度,而且可以消除冗余特征,提高垃圾邮件过滤算法的精度,因此本文对垃圾邮件过滤系统中的特征选择方法进行研究,提出一种改进的CHI特征选择方法和一种新的联合特征选择方法。实验结果表明,与传统的特征选择方法相比,本文提出的两种特征选择方法使垃圾邮件过滤的精度有了很大提高,这充分验证了本文方法的有效性。(3)由于SVM在解决小样本、高维和非线性模式识别问题中有其特殊优势,因此本文在垃圾邮件过滤系统中采用SVM作为垃圾邮件过滤系统的分类器。另外,为了提高SVM的训练速度,本文在SVM的训练过程中采用LIBSVM快速算法。
其他文献
GSM/EDGE网络是目前中国用户量最大的移动通信网络,为了保证该网络高效稳定地运行,需要不断地对移动网络进行性能优化。如何提高移动网络的运行性能、服务质量和运营性价比,
EPON(Ethernet over Passive Optical Network)基于以太网的无源光网络是一种新型的光纤接入网技术,它采用点到多点结构、无源光网络传输,在以太网之上提供多种业务。它综合
随着嵌入式技术的迅速发展,嵌入产品在功能需求上已能够很好的满足广大用户的需求,但是功耗却变成了一个急需解决的问题。低功耗技术需要在硬件设备电器特性和软件控制两方面
随着各国3G牌照的陆续发放,我们已经进入3G时代。鉴于以WCDMA为代表的3G系统拥有的诸多优点,2G到3G系统的演进是不容置疑的。但是目前来说,GSM系统仍然是全球用户最多、业务
机器人的控制系统在很大程度上决定了机器人的性能,随着微电子技术的发展,采用现代控制手段微处理器构成数字控制系统已经成为机器人控制系统设计的主流。其中DSP在机器人控制
Hilbert-Huang变换是美籍华人Norden E. Huang提出的一种全新的时频分析方法,非常适合处理非线性非平稳信号,具有广阔的应用前景和较高的研究价值。它主要包括两个部分:一个是
信源数目估计是阵列信号处理的一个重要分支,具有重要的理论价值,在医学、通信、雷达、声纳、地震勘探、语音、图象和财经等诸多领域都极具应用价值。在这些领域中,对信号源
基于震动波定位技术是一种集数据获取、数据传输、信号处理于一体的位置测量技术,广泛应用于煤矿勘探、室内、室外定位追踪等工程领域。在利用震动波进行地下浅层震源定位中,由