论文部分内容阅读
随着互联网技术的发展,电子邮件已经成为日常生活中最常用的通讯手段之一。在电子邮件取得巨大发展的同时,垃圾邮件问题也日益严重。垃圾邮件不仅浪费网络资源,干扰人们的正常通讯,它还成为各种政治谣言、黄色信息甚至病毒的载体,给计算机网络系统及社会稳定带来极大的破坏。鉴于垃圾邮件的各种危害,实用高效的反垃圾邮件技术的研究已具备很强的现实意义。 目前常用的垃圾邮件过滤技术可分为基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术两大类。基于规则的垃圾邮件过滤技术很大程度上依赖于人工的干预,主观性强,抗干扰能力差。基于内容的垃圾邮件过滤技术通过将文本分类的技术应用于邮件过滤,研究表明这种方法能有效的区分正常邮件和垃圾邮件,达到过滤垃圾邮件的目的。本文针对基于内容的过滤技术进行了研究,提出了一些新的改进方法。 本文将垃圾邮件过滤问题看作文本分类问题,对文本分类中的几个关键点(特征提取、文本表示模型、距离计算、分类器设计等)进行全面分析,提出相应的改进策略,实验结果表明这些改进效果明显。 首先针对文本分类中的特征提取问题,本文对各种特征提取方法的特点进行了分析,通过引入最邻近偏差比(NN-diff-rate)提出了一种新的多种特征提取方法混合的方法,实验结果表明这种方法能够有效结合多个特征提取方法的优点,提升邮件过滤的综合效果。其中使用卡方-kNN方法和互信息-kNN方法融合时,能在维数上升至400维时稳定97%以上的分类准确率,在700维时达到98.4%,其效果与目前资料表明的最好过滤方法,AdaBoost方法相当,但分类器的构造复杂度优于AdaBoost。 针对文本分类中增加维数既能提升分类效果(现实中维数一般控制在3200以内,超出3200维分类效果将和维数不相关,甚至反相关),但同时又会增加计算复杂度和样本存储空间的问题,本文提出了用布尔表示代替传统的向量空间模型,用布尔距离代替余弦距离的方法,通过降低单个特征项的存储空间来扩展向量维数,达到提升综合分类效果的目的。用比较新邮件与训练样本平均中心距离的方法来降低分类的计算复杂性,实验表明该改进方法能在维持综合分类准确率95%的情况下降低计算的时间和空间复杂度。