基于内容的垃圾邮件检测特征降维算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:rgy1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,电子邮件已经成为人们日常生活中通信和交流的重要方式之一但是垃圾邮件也伴随着互联网信息技术的发展而严重泛滥,带来诸多危害。基于内容的垃圾邮件检测是目前最主流的反垃圾邮件技术之一,在反垃圾邮件领域得到了广泛应用。特征降维是基于内容的垃圾邮件检测中的一项关键技术。由于通常使用向量空间模型来表示邮件文本,特征向量空间通常呈现高维特性,引发“维数灾难”。因此,必须对原始高维特征空间进行降维处理。文本特征降维方法一般分为两类:特征提取和特征选择。特征选择算法因其实现简单,计算复杂度小,性能比较好等优点,被广泛应用在基于内容的垃圾邮件检测中。常用的特征选择算法如信息增益(IG),卡方统计(CHI)等,均基于特征项之间相互独立的假设,只考虑了特征项与目标类别之间的关联度来构造评价函数,而忽略了实际情况下,不同特征项之间存在不同程度的关联,使得特征子集中存在了大量的冗余,因而分类性能不够理想。文本采用互信息量(MI)来衡量特征项之间的冗余程度,提出了一种新型的特征选择算法OMFS (OCFS-mRMR Feature Selection)。实验证明,OMFS算法能够保持很高的计算效率,有效去除特征子集中的冗余,使垃圾邮件的分类性能得到很大的改善。本文的主要工作和创新点主要有以下几点:(1)针对垃圾邮件特征空间冗余问题,从文本分类领域引入mRMR特征选择算法并对其进行改进,提出了一种新型的特征选择算法OMFS。(2)基于(?)natlab平台,WEKA Java API和Eclipse开发环境,通过程序设计,构建了基于内容的垃圾邮件检测仿真实验系统。基于中英文五种不同的公共垃圾邮件语料库和三种分类算法,设计并实现了一系列垃圾邮件检测分类对比实验。(3)采用分类精准度和CPU实时运算时间作为评价指标,并从有效性和计算效率两个方面对实验结果进行了科学、详细的分析,总结了实验规律,验证了OMFS特征选择算法能够有效去除特征项之间的冗余同时保持很高的计算效率,性能较传统算法得到显著改善。
其他文献
众所周知,在实际控制系统中,执行器饱和是一种常见的非线性,属于硬约束。设计控制系统时,若不考虑执行器饱和,系统性能可能恶化,甚至系统可能会变得不稳定。因此,对执行器饱和问题进
学位
单体液压支柱是煤矿开采的重要支护设备,单体液压支柱密封质量的好坏,直接关系到煤矿的安全生产,因此对单体液压支柱密封质量的检测尤为重要。本文主要介绍了根据单体液压支
随着互联网时代的发展,人类迎来了网络信息化时代,网民数量急剧增加,网络媒体呈现几何形式增长,网络参与人员数量众多且良莠不分,在有心人的引导下,很容易对焦点事件快速形成网络舆
随着3G网络的快速建设,基于无线网络的视频通信技术越来越受重视。同时,随着Android系统日趋广泛的应用,开发基于Android平台的视频通信系统具有广泛的市场空间。H.323协议与SIP
近几年,对于证券交易拐点的预测,广泛应用的是基于分段线性表示(PLR)和反向传播人工神经网络(BPN)的方法(PLR-BPN)。然而,该方法具有一些缺陷,比如容易过拟合和陷入局部最优点,而
现代制造业对产品的性能要求愈来愈高,由单一材料构成的零件己经难以满足产品对零件的功能或性能需求。近年来,人们提出了“异质材料零件”的概念,是指零件内部由多种材料连续或非连续分布而构成的功能性零件。本论文针对异质材料零件的CAD模型进行材料与结构的并行设计,研究空间微四面体重构的算法,为异质材料零件的一体化设计与制造提供有效的方法,为其进一步的工业化应用奠定基础。基于快速成型技术领域的彩色STL模型
尾矿坝的牢固稳定是矿山企业安全运营的头等大事。如果监测不力一旦溃坝将给企业自身及下游人民群众的生命财产带来无法估量的损失!目前尾矿坝的监测主要集中在了位移、浸润
随着国际海洋局势发展的需要,有关无人水面艇控制技术的研究正日渐受到世界各国的普遍重视。无人水面艇作为一种智能化的海上运动平台被广泛的应用在水道测量,海洋环境监测、
随着计算机硬件和软件的不断进步和发展,计算机视觉已经得到越来越广泛的应用,在视频监控、机器人控制、自动驾驶、航空航天等领域有着非常重要的作用。在计算机视觉中,运动