机器学习方法在基于内容的垃圾邮件过滤中的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:zgjcq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高精度的垃圾邮件过滤技术是最近自然语言处理的研究热点、在这篇论文中我们在与指导机器学习(Supervised Machine Learning)的框架下使用统计的方法研究垃圾邮件过滤问题、本文系统地研究了不同统计特征选取的方法和特征集大小对常用分类算注性能的影晌。特别地,本文观察到特征选取函数的重要性随分类器的不同差别很大。以常用的朴素贝时斯(Naive BayeS)分类器为例,我们观察到其性能在小特征集上受特征选取函数影响很大。支撑向量机(SuPPort VeCtor Machine),AdaBoost和最大嫡模型在邮件分类上取得了很好的效果:对特征选取函数不敏感,很容易扩展到高维特征空间,在不同测试集上的分类效果稳定。此外,试验还表明简单的“bag of words”过滤模型对垃圾邮件过滤有很好的效果,尤其拥有与语言无关的特性。我们对中文语料进行了简单的预处理(分词)之后就取得了很好的分类效果。试验中还发现邮件信头中的特征对分类效果有显著影晌。在仅使用邮件信头中的特征的情况下,我们在四个测试语料上取得了98%的分类准确车。这意昧着邮件信头的特征可以被用作高效垃圾邮件过滤特征。
其他文献
该文以企业实施大规模定制作为问题的研究背景和验证基础,主要研究了窄带环境下面向大规模定制的协同设计环境体系结构及支持协同设计的基本使能技术.具体地说,该文的主要工
到目前为止,软件构架领域已经出现许多的构架描述语言,它们能够为基于构件的系统构架的描述和分析提供形式化的基础.但是每种构架描述语言都面向不同的领域并且各自具有构架
本文根据模具设计依赖于经验的特点,将CBR技术应用于模具CAD,充分利用已有设计方案进行推理设计,大大提高了模具的设计效率。因而本文的研究具有重要的理论意义和应用价值。
全文共分为五章:第一章简单介绍了基于角色访问控制(RBAC),主要介绍了典型的RBAC模型-RBAC96模型.第二章介绍了代理和代理模型,描述了代理的概念和特性,并介绍了两个比较有名
对XML数据类型、模式的关系和XML文档的合并,人们做了大量的研究工作,但是这些研究工作还存在着一定的局限性,如KUPER和SIMEON提出的XML模式的子包含关系,只就两个XML模式之
无线自组织网络在诸多领域都有着广泛的应用,如监测,监视,防御,为社区提供短期或长期的连接服务等。但是,由于每个节点的带宽有限,以及受无线媒介的传播特性和节点移动带来的
随着嵌入式系统的功能和性能要求的不断提高,嵌入式软件的规模越来越大、复杂度不断增加;嵌入式软件还需要满足许多非功能需求,如实时约束、实现成本约束(使用有限的资源,如
802.11无线局域网(WLAN)是指将无线通信技术与计算机网络结合起来,构成可以互相通信和实现资源共享的网络体系.相对有线网络来说802.11无线网络灵活性好、易配置和维护,已经
随着Internet应用的深入,电子商务得到了迅猛的发展,其中B2B模式是电子商务中最主要的一种模式,它为企业间商务活动提供了全新的途径。为了保证全球范围内企业间商务信息交互
特征提取是模式识别领域中的一个关键问题,它强烈地影响着分类器的设计及其性能。特征提取的基本任务是如何从众多特征中找出最有效的特征。现有的特征提取方法主要有基于统计