基于改进贝叶斯模型的中文邮件过滤系统

来源 :南开大学 | 被引量 : 0次 | 上传用户:zichou133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件在世界范围内的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,对系统安全和人类生活所造成的影响越来越严重,反垃圾邮件问题作为一个全球性的课题具有重要的现实意义。另据统计表明,目前我国已经成为第二大垃圾邮件受害国,因此,针对于中文垃圾邮件的识别与过滤更显得尤为重要。 邮件过滤技术是反垃圾邮件的重要手段,目前的垃圾邮件过滤技术主要分为两种:基于规则的过滤和基于概率的过滤。基于规则的过滤从邮件的结构出发,通过对垃圾邮件特征的总结制定相应的过滤规则,但是垃圾邮件的表现形式变化迅速,规则的维护并非易事。 基于概率的过滤技术是从邮件信体包含的内容出发,利用文本分类方法对邮件类别进行判断。由于信体是垃圾邮件信息的最终载体,因此基于概率的过滤具有较高的准确性,成为当前邮件过滤技术的主流。 论文对基于概率的邮件过滤技术进行讨论,其中着重研究贝叶斯算法及其相关模型,详细介绍了朴素贝叶斯方法,最小风险贝叶斯方法的原理。论文在贝叶斯方法现有的二项独立模型和多项式模型的基础上,结合最小风险贝叶斯方法的思想,提出一种新的更加完善的贝叶斯分类器构造模型:改进贝叶斯模型。实验表明,此模型具有较好的分类准确率和查全率。 论文结合邮件分类器的实现与测试,给出一种垃圾邮件过滤系统的设计结构及具体实现。系统以分类器为核心,利用Linux环境下的开源软件Sendmail作为邮件服务器的主体,通过对Sendmail提供的Milter接口的开发和扩展实现邮件过滤的功能;邮件分类器模块以插件形式嵌入Milter,并可根据需要更换或添加其他分类算法;系统采用先进的实时中文分词技术和邮件解码技术,使其更好的适用于中文邮件的分类工作。论文最后对系统的整体性能进行了联机测试,给出系统在分类性能以及时间效率两方面的测试结果。
其他文献
随着全球经济的发展,许多从事大型复杂产品开发与制造的企业为了提高产品的竞争力和市场响应能力,逐渐以动态联盟方式将相关企业结成联盟,采用项目管理的理念进行产品生产的
作战文书的理解是C3I系统中的一项重要工作,目前普遍采用的是基于“模板”和基于“自然语言处理”两种方式,存在着适应性差、不能很好表示特定领域语义关系。本文着重探讨了
在当今的互联网络世界中,TCP/IP协议簇是计算机通信的事实标准。TCP/IP体系是基于层次体系结构的。采用层次体系结构,其出发点在于简化协议设计的复杂性。层具有封装性、隐蔽
监控系统在社会生活中应用广泛,包括电力、电信、能源、交通、环保等领域,产生了巨大的社会经济效益。同时,出现了一批成功的监控解决方案。这些解决方案既有其作为监控系统
随着Internet的飞速发展,对网页文本数据的组织和检索技术,已成为当今国际上研究热点之一。文本聚类作为一种对大规模文本信息进行有效组织、导航、检索和概括汇总的基础、关
现在,应用三维扫描所得物体表面的散乱点集合进行曲面重建和重建后的网格优化,已成为计算机图形学领域的一个热门研究课题,其研究成果对于机械制造、医学诊断和虚拟现实等许
随着网络技术的快速发展,传统的流程应用模式由面向企业用户渐渐转为面向更广泛的普通用户。企业中的流程相对比较成熟规范,流程也相对稳定。但是面向普通用户的时候,情况就不同
目前,基于IPSec技术的VPN正在得到越来越广泛的应用。其中,一种具有广泛市场前景的构想是,远程VPN客户端使用本地ISP的服务与所在组织的VPN网关建立安全隧道,访问网关后面的
随着互联网技术的迅速发展和普及,人们的学习和工作对于互联网的依赖性越来越大,人们希望通过互联网来获取需要的各种信息资源,以方便自己的学习和工作。用户要想准确地获取
近年来,随着信息化进程的加快以及社会经济生活对信息技术的依赖日益加深,大众对计算机信息系统的安全性提出了更高和更严格的要求。安全问题是关于信任的问题。数据库管理系