基于内容的垃圾邮件过滤技术的若干研究

来源 :中国科学院计算技术研究所 | 被引量 : 16次 | 上传用户:ankang1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人的滥用。今天,垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,内容过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。内容过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。 我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本挖掘问题存在着很多不同,我们对之进行了分析并提出了一系列改进。同时我们分析了垃圾邮件过滤技术不能进一步实用化的原因,并针对这些原因提出了一些解决办法。论文的具体内容包括: (1)我们总结和分析了目前基于内容的垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库。 (2)相比传统文本挖掘问题处理的对象,邮件包含了种类更丰富的信息。我们通过对现有工作的总结和分析,站在一个更高的高度,对垃圾邮件过滤所能使用的特征进行了总结和分类。其中有关“属性特征”的研究目前较少,我们对之进行了详细研究,包括属性特征的作用、如何将属性特征与普通文本特征相结合、以及属性特征的选择方法等。 (3)邮件语料样本的差异较大,尤其是在结构方面。我们从实验和理论两方面分析说明了邮件语料这种在结构上的差异性,并分析了这种差异对垃圾邮件过滤造成的负面影响。在此基础上,我们提出了一种基于结构特征的双层垃圾邮件过滤模型,并针对这种模型做了一系列的实验,结果表明常用分类器在使用这种模型后性能有较明显的提升,尤其是Na(?)ve Bayes算法,在使用了这种模型之后,分类效果大大提高。 (4)尽管基于内容的垃圾邮件过滤在技术上已经比较成熟,但是在实用上并没有得到与之相应的广泛应用。我们分析了基于内容的客户端垃圾邮件过滤不能进一步扩大实用的原因,并且提出了一种将逻辑上的客户端过滤器前移到服务器上的模型。同时,我们对用户信息建模和算法的增量式调整做了初步的探索。
其他文献
本文通过对原有船舶综合航行性能预报、评估及优化设计集成系统(SHIDS)的认真分析和研究,总结了其中存在的问题。在系统的功能方面,只是对各种模块进行了简单的堆积,没有一个合
当今Internet技术正将世界各地的丰富信息资源带到我们每一个人面前。随着网络信息的爆炸式增长,人们越来越关心怎样高效、准确地检索出自己想要的信息资源。传统搜索引擎的发
随着计算机的发展,社会中各行各业都离不开计算机,同时计算机可以给人们带来很大的方便和创新。字符串在计算机领域中是一种重要且基础的存储结构。现如今大量的数据都是以字
在对各种WEB数据库中间件技术的研究基础上,本文选择JDBC作为典型的对象进行研究。文章指出了JDBC技术在开发网络数据库过程中存在的一些问题,并对其提出自己的改进意见。
近年来,随着计算机和互联网的广泛应用和迅速发展,自然语言处理技术正进入到一个飞速发展的时代。与此同时,如何从海量数据中迅速而准确的获取有价值的信息越来越受到研究人
随着世界经济的飞速发展,经济全球化的趋势已经越来越明显,世界各地经济联系日趋紧密。二十世纪九十年代以来,以计算机技术为代表的信息技术在企业的经营、管理、设计和制造等社
“网格”是一个新出现的概念,代表了一种先进的技术和基础设施,是继Intemet之后又一次重大的科技进步。网格是以资源共享为目的,支持对可计算资源的远程和并发的访问,用高速网络
电力营销系统对于保障电力市场运营具有重要意义。当前,随着计算机技术的迅速发展,电力营销系统得到日益广泛的应用,而且要求也越来越高。构件技术是可复用的软件单元,利用构件技
课题的目的是将基于TRIZ理论的CAI技术引入到浮筏的开发中,形成针对减振浮筏CAD/CAE/CAI集成系统。CAI在浮筏概念设计阶段为工程人员提供创新设计的思路;参数化的浮筏CAD模型系
城市供水是城市发展的命脉产业,是保障人民生活、发展生产建设必不可少的物质基础。随着网络技术的普及和计算机技术的深入发展,人们已经意识到利用计算机和地理信息系统管理城