基于文本分类的垃圾邮件过滤方法研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:dimaie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,电子邮件已经成为日常生活中最常用的通讯手段之一。在电子邮件取得巨大发展的同时,垃圾邮件问题也日益严重。垃圾邮件不仅浪费网络资源,干扰人们的正常通讯,它还成为各种政治谣言、黄色信息甚至病毒的载体,给计算机网络系统及社会稳定带来极大的破坏。鉴于垃圾邮件的各种危害,实用高效的反垃圾邮件技术的研究已具备很强的现实意义。  目前常用的垃圾邮件过滤技术可分为基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术两大类。基于规则的垃圾邮件过滤技术很大程度上依赖于人工的干预,主观性强,抗干扰能力差。基于内容的垃圾邮件过滤技术通过将文本分类的技术应用于邮件过滤,研究表明这种方法能有效的区分正常邮件和垃圾邮件,达到过滤垃圾邮件的目的。本文针对基于内容的过滤技术进行了研究,提出了一些新的改进方法。  本文将垃圾邮件过滤问题看作文本分类问题,对文本分类中的几个关键点(特征提取、文本表示模型、距离计算、分类器设计等)进行全面分析,提出相应的改进策略,实验结果表明这些改进效果明显。  首先针对文本分类中的特征提取问题,本文对各种特征提取方法的特点进行了分析,通过引入最邻近偏差比(NN-diff-rate)提出了一种新的多种特征提取方法混合的方法,实验结果表明这种方法能够有效结合多个特征提取方法的优点,提升邮件过滤的综合效果。其中使用卡方-kNN方法和互信息-kNN方法融合时,能在维数上升至400维时稳定97%以上的分类准确率,在700维时达到98.4%,其效果与目前资料表明的最好过滤方法,AdaBoost方法相当,但分类器的构造复杂度优于AdaBoost。  针对文本分类中增加维数既能提升分类效果(现实中维数一般控制在3200以内,超出3200维分类效果将和维数不相关,甚至反相关),但同时又会增加计算复杂度和样本存储空间的问题,本文提出了用布尔表示代替传统的向量空间模型,用布尔距离代替余弦距离的方法,通过降低单个特征项的存储空间来扩展向量维数,达到提升综合分类效果的目的。用比较新邮件与训练样本平均中心距离的方法来降低分类的计算复杂性,实验表明该改进方法能在维持综合分类准确率95%的情况下降低计算的时间和空间复杂度。
其他文献
对计算资源实现按需使用是软件应用保障性能并提高资源利用率的一种主要手段。所谓按需,是指当计算资源不足而导致应用性能不能达到要求时,应用可以占有并使用额外的资源以保
数据存储安全是信息安全的重要组成方面。随着移动存储广泛地应用于社会生产、社会生活的方方面面,移动存储的安全问题导致的泄密事件频发,移动存储的数据安全问题凸显。  为
多核时代已经到来了。在多核体系下,能够更好的利用多核处理能力的并发数据结构算法得到了广泛应用。并发数据结构往往采用细粒度锁或者是免锁的机制进行同步,而不是使用更传统
随着软件越来越多的应用于许多关键领域、以及软件本身和其运行环境变得越来越复杂,软件可信性引起人们越来越多的关注。人们不仅希望软件系统能够解决现实世界的问题,还希望
按照ISO/IEC12207:1995标准,从合同的角度可将软件项目中的众多干系人(Stakeholder)分为供方和需方两类。供方提供软件产品或服务,通常是软件开发机构;而需方则是采购或使用
生物特征是人独特的生理或行为特征,它被认为是一种比传统身份识别方法(如密码,卡等)更加安全可靠和方便的身份识别手段,并已经逐渐成为国内外的一个研究热点。虽然目前已经有人
随着计算机硬件、多媒体技术和互联网的不断发展,信息的载体正在往多媒体方向发展,youtube、优酷、土豆等视频分享网站十分火热,网络聊天也由从前的文字聊天逐步转变为视频聊天
红外光谱分析技术具有快速、无损、成本低等优点,对固体、液体或气体样品,对单一组分的纯净物和多种组分的混合物都可以测定,已被广泛应用于石油化工、食品工业和制药工业等
本文设计并实现了一个网络共享存储系统,旨在为北京大学软件研究所正在研发的虚拟计算平台UniAS提供分布式文件存储服务。在借鉴既有网络共享存储系统许多优秀设计思想的基础
本文以快速生成三维建筑物模型为目标,研究平面图引导的虚拟环境三维建模问题,重点对建筑平面图的图元几何关系描述、工程符号识别、构件轮廓提取等关键技术进行了深入的研究