垃圾邮件过滤技术研究

被引量 : 0次 | 上传用户:sanlyye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。因此目前反垃圾邮件技术的研究成为了一个热门的话题。目前经常采用的垃圾邮件过滤技术可以分为两类,一类是基于规则的过滤方式。一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另一类是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。常用的文本分类方法有贝叶斯、k-近邻、决策树、boosting等。朴素贝叶斯方法计算简便,在大样本的情况下表现出较好的性能。其他的几种方法有的效果比朴素贝叶斯好一些,但计算较复杂。目前基于文本内容的垃圾邮件过滤器得到了广泛的应用,这类过滤器主要是基于朴素贝叶斯算法。随着基于以贝叶斯为代表的基于内容的反垃圾邮件技术的普及,垃圾邮件发送者也想出了一些行之有效的方法来对付它,例如插入干扰词。然而,当前关于反垃圾邮件的学术研究工作主要都集中在提高文本分类的效果上,而很少注意到算法的抗干扰性问题。对此,我们专门对贝叶斯过滤器的抗干扰性能进行了研究,特地构造了一个使用插入干扰词法的干扰器。试验的结果表明,在干扰器的作用下传统的贝叶斯过滤器的性能下降明显。本文分析了造成这一问题的原因,并试图寻找一种方法来解决这个问题。Teiresias是一种模式分析算法,原用于生物领域的DNA模式分析。2004年IBM将Teiresias应用于反垃圾邮件技术中并取得了很好的效果。我们设计了一种将Teiresias和Bayesian结合的过滤算法,通过使用Teiresias分析的方法生成文本的特征向量来代替传统的基于词频的过滤器,从而解决了Bayesian易受插入干扰词法干扰的问题。测试结果表明,该方法继承了贝叶斯过滤器的计算简便与高精确率,并且在有干扰器作用的情况下仍然有很好的性能表现,具有良好的抗干扰能力。本文的主要创新性工作包含以下内容:(1)从原理上分析了插入干扰词法干扰贝叶斯过滤器的工作机制,并使用插入干扰词法对贝叶斯过滤器的抗干扰性能进行了全面的实验测试。测试结果表明,只要适当地构造干扰词,垃圾邮件就可以很容易地绕过贝叶斯过滤器。(2)提出了一个结合Teiresias的Bayes过滤方法,解决了传统贝叶斯过滤器易受干扰词干扰的问题。进一步的实验测试表明,这个系统有受到有针对性的模式干扰时的抗干扰能力也是比较强的。
其他文献
<正>2019年是《现代轮胎经销商》(MTD)第53次发布北美轮胎市场报告。报告涵盖美国轮胎出货量、乘用车轮胎市场、美国商用轮胎市场、北美地区轮胎生产能力、轮胎畅销规格、价
扩大中等收入阶层与全面建成小康社会具有共生的内在关系和一致的实现过程。全面建成的小康社会是以中等收入阶层为主体的中国特色社会主义社会。它要求中等收入阶层的人数占
根据市面上已有的鞋类产品,介绍了经编间隔织物在鞋材上的应用和生产。具体从原料、机器、生产机型、结构组织和后整理工序等方面进行系统性分析,尤其在组织结构方面对当前市场
<正>轮胎是汽车最重要的零部件,与我们的安全驾驶息息相关。尤其是假期出行,更应了解爱车轮胎的健康状况,防止意外爆胎!那么汽车轮胎使用寿命是多久?汽车轮胎多久需要更换?看
公民社会理论于最近二、三十年再度复兴,公民社会组织逐步成长为与国家、市场并立的独立部门,其作用越来越受到重视。但由于缺少有关公民社会的系统信息,使得很多既非政府又
【目的】探讨人类成熟卵丘细胞在未成熟卵母细胞体外成熟培养中的作用,并建立一种简易的实施技术。【方法】在控制性促排卵周期有未成熟卵母细胞时,将同周期成熟卵丘复合体切
本世纪以来,集装箱船舶大型化的浪潮一浪高过一浪,随之而来的集装箱港口大型化的趋势风起云涌,越来越多的港口追求大型化、深水化,以期成为地区大港、区域枢纽港和国际枢纽港
美国社会心理学家库尔特·卢因(Kurt·Lewin)著名的行为模型(Lewin metal of behavior)在很大程度上揭示了人类行为的一般规律,并对影响行为的多种因素做出了最基本的归纳和
改革开放以来,随着我国教育行政法律体系的建立和完善,教育行政执法的地位和作用不断得到重视和加强,教育行政执法已经成为行政机关实施教育行政行为的主要形式和重要手段。当前
淫羊藿是一种具有重要药理作用的天然药用植物,淫羊藿所含的黄酮类物质尤其是主要活性成分淫羊藿苷具有广泛的生理活性,可用于调血脂、抗高血压、抗炎、抗骨质疏松、抗衰老、抗