邮件过滤算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:linjing912977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件在我们的日常工作、学习和生活中起着越来越重要的作用,它快捷、方便。电子邮件给人们带来了便利,但垃圾邮件也随之出现,网民有时收到的垃圾邮件数反而超过正常邮件数。这不但浪费了人们宝贵的时间、同时也浪费了有限的网络资源,垃圾邮件问题日益突出。目前常用的基于内容的垃圾邮件过滤算法有基于规则的方法和基于统计的方法,也有两种方法的综合运用。基于规则的方法简单高效,但缺少灵活性。基于统计的方法是基于关键词的统计,不能有效的发现邮件中蕴含的关键词间的有用信息。针对以上传统方法所存在的问题,本文应用基于Teiresias模式发现的算法过滤邮件。该算法同时发现出现于垃圾邮件集与正常邮件集中的大量模式,经互信息方法做特征选择后获得有效的垃圾模式来过滤邮件。在Spam Assassin语料上的实验表明运用该算法获得了较好的正确率、召回率和F值。本文主要研究了以下内容:1、垃圾邮件过滤技术的意义,目前邮件过滤领域研究的现状,现有主要的垃圾邮件过滤技术及他们的对比分析。2、电子邮件的技术原理和邮件过滤平台的设计。3、模式发现算法的理论背景、算法原理、算法实现。4、实验框架设计、系统流程及实验中采用的特征选择方法。5、对比分析实验数据结果,分析在对垃圾模式库不做模式特征选择、对模式库作冗余模式剔除并做模式消减、对模式库应用互信息方法作特征选择三种情况下的正确率、召回率指标和F值。6、在Spam Assassin公共邮件语料平台上与前人的实验结果对比,Teiresias算法具有较好的表现。
其他文献
随着统计自然语言处理技术的快速发展,文本分割日益成为一个重要的研究方向,并在多个应用领域发挥愈来愈大的作用。TextTiling算法作为一种以词汇链为基础的文本分割方法以其较
潜油电机驱动螺杆泵的无杆抽油可实现高扬程、低排量,能达到降低成本提高效率的目的。潜油电机工作在油井下几千米深的地方,是潜油电泵的动力机,驱动潜油电泵抽取地下的原油。特殊的工作环境决定了潜油电机具有特殊的结构构成。潜油电机是一种立式工作的三相异步电动机,它采用定转子分段的细长结构,各定子段之间轴向用非磁性材料连接,各转子段之间有扶正轴承,定转子之间充满专用润滑油。本文根据潜油电机的特殊结构,研究了其
时间和价格是大多数应用系统模型的两项主要参数,因此如何将时间和价格信息有效地在建模工具中表示出来并加以应用成为一个有意义的问题。目前各种扩展了时间信息的Petri网可
基于Web的专业学位管理信息系统是西安理工大学研究生综合管理系统的重要组成部分,主要实现专业学位硕士研究生的管理,包括入学管理、学籍管理、课程成绩管理、开题管理、毕
诸如军事、金融等提供关键敏感服务的大规模计算机网络,安全性是其重要指标之一。当前网络中急剧增加的各种服务以及新技术的采用,一方面满足应用的需求,但同时也增加了出现
随着信息时代的到来,在信息技术被政府、企业、军队等部门广泛应用的同时,信息安全成为备受关注的研究领域。身份认证技术是网络安全和信息系统安全的第一道屏障,以指纹识别技术
网络技术是一把双刃剑,它在给人们生活工作带来方便的同时也给人们带了了许多安全威胁。在与攻击者斗争的过程中,只有对攻击者的相关行为作全面深入的了解,才能把握战争的主
在计算机中实时生成各种场景,巨大的计算量往往成为图形生成、显示的瓶颈。因此,如何简化且有效地模拟火焰、头发等自然景物,已经成为计算机真实感图形生成的关键。本文着重
随着Internet 的飞速发展,计算机网络在各个领域的广泛应用,网络安全问题也日益突出地显露出来并受到人们的广泛关注。本文首先分析了网络安全问题的现状,研究了各种网络攻击
虚拟机技术已被广泛应用于云计算、数据中心和物理网络等系统。然而随着系统规模不断扩大、业务种类持续增长,如何保证系统稳定高效地持续运行,降低更新、检修和维护等引发的