基于内容的垃圾邮件过滤研究与实现

被引量 : 15次 | 上传用户:k364709757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。 本文首先深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是基于内容的垃圾邮件过滤方法进行了研究。并针对在基于内容的垃圾邮件过滤中使用最广的简单Bayes算法进行分析,提出了一种改进算法。该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。本文还研究了基于复制检测技术的垃圾邮件过滤方法,实现了Nilsimsa算法。最后针对一种以HTML形式发送的包含大量超链接的垃圾邮件,提出基于URL过滤方法。试验结果表明,基于URL的过滤实用有效,能识别基于内容的垃圾邮件过滤算法难于判断的垃圾邮件,是基于内容过滤方法的一种有效补充。 本文的第1章介绍了反垃圾邮件的研究背景、垃圾邮件定义、历史及组成,说明了文章的内容和结构安排。第2章介绍电子邮件系统工作原理及所用协议。第3章分析比较了几种国内外反垃圾邮件技术,重点介绍了垃圾邮件过滤技术,研究出当前垃圾邮件发送者常用的欺骗手段。第4章介绍了简单Bayes算法及在垃圾邮件过滤中的使用,针对其缺点提出一种改进方案,即基于最小风险的Bayes算法,并对二者的性能进行试验比较。本章还实现了近似邮件检测过滤的Nilsimsa算法和基于URL过滤模块。最后一章是全文总结和展望。
其他文献
视觉信号具有信号探测范围宽、获取信息丰富等优点。随着近几年图像处理技术以及计算机处理能力的飞速发展,视觉导航成为机器人导航的主要发展方向之一。最近二十年来,基于视
按照《北京市总体规划》,朝阳区属于功能拓展区,对其定位集中表述为49个字:国际交往的重要窗口,中国与世界经济联系的重要节点,对外服务业发达地区,现代体育中心和高新技术产
本论文的主要目标是分析我国农村劳动力转移对农村人力资本流失、资金积累及土地流转的影响,评价我国农村劳动力转移对农业部门及农村经济发展的影响。本研究首先描述了我国
李培生教授从医70余年,治学严谨,学识渊博,临床经验丰富,在学术上自成体系,对伤寒学说的理论和临床尤为精深,是我国著名的中医教育家和伤寒家,被誉为伤寒学界泰斗。 李教授至今一
环氧树脂具有许多独特的优异性能,广泛应用于机械、电子、电器、航空、航天等领域。溴化环氧树脂由于具有良好的阻燃性,长期以来在阻燃型聚合物基覆铜板应用领域占据着主导地
目的:探讨睡眠呼吸暂停综合症的中医中药治疗。方法:通过典型病例分析,观察豁痰化瘀开窍方对该病的疗效。结果:豁痰化瘀开窍方对睡眠呼吸暂停综合症确有疗效。
民主集中制的"集中"问题,是民主集中制的重要内容和环节。"集中"蕴含着民主,正确集中必须集中多数人的意见,防止和克服党委决策失误,坚持正确集中。党委既要以广泛的意见为基
内陆河流域作为一个脆弱的、相对封闭的生态-经济-社会耦合系统,水资源是最根本的限制性因素。水资源是内陆河流域生存和发展的命脉,但由于经济用水挤占生态用水,农业用水挤占工
本文的主题是公司与其管理者之间的利益冲突及其法律规制。本文试图通过自己的研究与分析,探索具体法律制度背后的理论依据和成因,从而为促进先进公司治理法律制度与我国国情
目前,服务外包已成为市政公用行业市场化改革的主要手段和重要形式,是政府在市场经济条件下实现职能转变、提升管理效能、完善公共服务的重要手段。本文主要对宁波市市政公用