三维复合型垃圾邮件过滤技术的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:psetpsetc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这些技术存在的问题是:要么召回率等指标不能令人满意,要么训练时间长、误报率高。本文提出并实现了一种三维复合型垃圾邮件过滤系统。该系统采用基于下列三种过滤技术的复合过滤模型:基于用户反馈的协同过滤技术、基于个人邮件网络的白名单过滤技术和自适应贝叶斯过滤技术。协同过滤技术用来过滤群发垃圾邮件,其中使用了改进的Nilsimsa摘要算法判断相似邮件,并采用了显式和隐式反馈收集技术。白名单过滤技术用来过滤群发合法邮件,依据所构建的个人邮件网络的群体相关性进行判断。贝叶斯过滤技术充分使用了前两种过滤的输出结果进行训练,通过特征提取方法、多次迭代训练方法等进行自适应过滤。实验结果分析表明,与当前最普遍使用的简单贝叶斯过滤结果相比,复合过滤系统的召回率提高了4.26个百分点,正确率提高了0.27个百分点,并且用户因垃圾邮件带来的损失可以降低15%以上。
其他文献
事件自动摘要的研究是事件信息抽取技术与自动摘要技术结合的产物,其任务是从事件新闻中抽取一些与事件相关的重要信息,采用不同的技术组织这些信息,最终生成易于人们理解的
在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息检索工具已经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎,为广大的用户提供了方
阴影是非常重要的视觉特征。阴影给出了场景中有关光源位置的信息,突出了物体之间的空间关系。因此阴影渲染在计算机图形图像、数字多媒体等领域具有广泛的应用前景。理想点
计算机视觉是指利用计算机来模拟人类视觉系统机制的特性,使其能够像人类一样自动地对自然场景进行理解和分析。图像显著性的检测作为计算机视觉领域的一个热点研究方向,逐渐
考试作为教学过程中一个非常重要的环节,已经经历了一个很长的发展过程。但是在计算机和网络技术出现之前,其形式的变化都较小。随着计算机技术的飞速发展和Internet的日益普
Web应用的发展趋势已从紧密耦合的单一系统转移到了松散的、基于组件的动态绑定的组合系统,并出现了基于面向服务模式构建软件应用的新模式。服务(应用)集成必将成为下一代电
当今,计算机网络和电子技术得到了飞速发展,同时网络带宽和计算机的计算能力呈指数方式提升,这就出现了一种全新的分布式计算模式——对等计算。对等网络的优点包括:分散式控
随着现代化建设和信息化建设的不断向前推进,大量非线性电力电子设备运行在电力线上,使得电网的谐波含量大大增加,谐波污染越来越严重,对电力系统的安全运行造成极大的影响。谐波
越来越多的信息被存储在关系数据库中,面向关系数据库的关键字查询的需求也随之增多。尽管许多数据库管理系统支持全文本信息搜索,但是,在这些系统中,用户必须预先知道所要查
随着Internet/Intranet的技术和应用的飞速发展,作为教育评价的考试也正经历着无纸化和网络化的飞跃。在线课程考试系统是将计算机和网络通信技术应用到教学领域的产物,利用W