基于协作过滤的反垃圾邮件网关的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:leoni002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件问题引起了人们的重视。垃圾邮件不仅降低互联网的服务质量,而且还浪费用户大量的时间和精力,一些垃圾邮件还给社会带来了极大的负面影响。面对垃圾邮件的严峻形势,反垃圾邮件技术已成为目前研究热点之一。目前,市场上反垃圾邮件产品众多,服务器端反垃圾邮件产品价格昂贵,而客户端反垃圾邮件产品又无法做到实时过滤。中小型企业面临这种情况时往往很难选择。本文首先分析国内外反垃圾邮件现状,以教研室项目为背景,将协作过滤的方法应用到反垃圾邮件系统中。通过分析服务器端反垃圾邮件技术,系统选择netfilter/iptables技术来进行实时过滤。整个系统采用透明接入,邮件服务器和该系统相分离,实现邮件服务器的负载平衡。通过对协作过滤思想的分析和研究,设计和实现基于邮箱用户和邮件的协作过滤。在基于邮箱用户的协作过滤中,分析了传统的聚类方法,在传统聚类方法上设计一种折中方法,与以往直接使用聚类对邮件判断是否属于垃圾邮件不同,本文通过聚类方法产生不同的邮件分类,根据邮箱用户对邮件分类情况的背景知识,判断新邮件是否属于垃圾邮件。当邮件特征不能满足分类条件时,本文利用朴素贝叶斯方法来判断该邮件,整个设计充分利用邮件个性化特点。本文中邮件的表示使用向量空间模型,在特征选择方面,基于传统的评分公式TF-IDF,再考虑邮件分类中的二元性,改进了该评分公式,并将改进的公式应用到特征选择中。在基于邮件的协作过滤中,传统方法是对垃圾邮件直接使用MD5方法进行指纹特征提取,判断该指纹是否属于垃圾邮件,本文则首先提取垃圾邮件中具有实际意义的词,然后对这些词进行Rabin指纹运算,最后判断该指纹是否在指纹数据库中。本系统运行在Linux系统上,其内核需要大于2.6.18,考虑维护的方便性,后台管理采用web界面进行设置。最后通过实验对系统进行测试,然后再给出系统在公司的试运行结果,证明该设计方案切实可行,满足企业需求。
其他文献
在储存海量数据的数据仓库中,由于其潜在的数据价值随着数据挖掘技术的发展与应用而被各研究领域所关注,包括商业、军事及科研等,涉及范围广泛,随着数据仓库安全性问题也得到
面向特定主题的信息采集是垂直搜索引擎的关键技术之一,直接影响到搜索结果的速度和相关性。研究面向特定主题的信息采集,应用分步骤判断方法计算页面相似度,改进PageRank链
随着移动通讯技术的迅速发展,移动电话等便携设备成了语音识别的重要应用领域。对于便携设备来说,运算量和网络带宽始终是制约语音识别应用的瓶颈。分布式语音识别的特点是:
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛,如搜索引擎、自动翻译、语音识别、信息检索、自动分类、自动文摘、文本的自动校
语言是人类之间交流的最重要的工具,因此人们一直希望能不用键盘,不用手写,来操作计算机、手机、学习机、车载导航、以及智能玩具等各类信息终端产品,使它们都具备“能听会说
网络安全事件的频繁发生,使得人们对信息安全的关注度越来越高,如何合法的访问网络上受保护资源,变得异常重要。目前,PKI是解决信息安全问题的一种最成熟的技术手段,能够有效
SaaS模式是一种通过Internet提供软件的模式。厂商将应用软件统一部署在自己的服务器上,客户可以根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多
UMTS(Universal Mobile Telecommunication System,通用移动通信系统)引进IMS(IPMultimedia Subsystem,IP多媒体子系统)是移动网络向NGN(Next Generation Network,下一代网络
信息化程度越来越高的今天,计算机软件复杂度的正不断提升,因此计算机软件开发的正确率和效率正变得越来越重要。一方面,“软件工程”的诞生改进了开发方法,从而提高了开发效
随着通讯技术和计算机网络的发展,网络已经成为人们生活中不可或缺的工具,在为提供用户带来方便的同时,网络安全的隐患也越米越成为关注的焦点。为了网络安全,各种网络安全防护技