一种的复合双引擎智能垃圾邮件过滤方法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:neverer123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也导致花大量的时间和精力来处理来垃圾邮件。如何更加准确地将垃圾邮件从正常邮件中区分出来并过滤掉,已经成为一个世界性的课题,即反垃圾邮件问题。为了解决这个让人棘手的问题,一定要采取一个系统化的方案,包括立法、社会组织、技术方法。从技术的角度出发,传播垃圾邮件和过滤垃圾邮件是此消彼长的长期斗争过程,就像反病毒一样。为此,本文就反垃圾邮件的应用技术,贝叶斯分类模型,中心距向量空间模型,多分类模型组合等相关理论和知识进行了研究。基于概率统计原理的贝叶斯分类算法是一种经典的文本分类方法,它本身具有理论发展成熟,分类准确度高的特点;中心距向量空间模型是一种新颖的文本分类算法,由于其很好的准确性,良好的多分类性能,目前也被广泛应用到各类文本分类应用中。在分析了这几种方法和技术在邮件过滤应用中各自的优缺点后,根据这几种算法的优缺点,对它们进行改良、相互结合、并增加了通过查看发出的邮件内容进行自动学习的机制。另外,该算法针对中英文垃圾邮件采用不同的学习算法,从而建立一个适用中英文环境的垃圾邮件过滤方法。实验表明,该方法的效率和性能达到了较好的水平。本文用VC++和MySQL数据库设计了一个基于贝叶斯算法的垃圾邮件过滤系统。具体实现是通过将基于TDI网络驱动过滤的技术和应用层的基于贝叶斯算法和中心距向量算法的文本分类技术结合起来达到的。为了提高贝叶斯算法对中文邮件的处理精度,引入了中文分词机制。中文分词采用的中国科学院计算技术研究所汉语词法分析系统ICTCLAS的开源代码。经过测试,系统的的垃圾邮件过滤功能的效果相当的好。
其他文献
数字遮片技术从产生至今已被广泛的应用于电影的特效制作和数字图像合成中。传统的数字遮片技术仅能处理物体边缘的遮挡透射关系,不能反映物体的反射、折射等光学现象。这使
随着国家现代化建设进程的加快,对各类工程机械的需求量迅速增大,起升设备作为工程机械中的主要成员,频繁发生的事故一再提醒人们加强对该类设备的安全监控。 传统的安全监控
随着计算机技术和定位技术的快速发展,许多厂商都研制并生产出了适用于个人或者特殊行业的移动定位产品,这为人们的出行提供了极大的便利,尤其是一些车辆定位系统,大大提高了
随着信息技术特别是网络技术的迅猛发展、各种应用服务的普及,在不同企业、不同政府部门的业务系统间实现信息共享的需求越来越强烈。本文分析了在不同的业务系统间进行信息
面对全球化浪潮和个性化买方市场的冲击,越来越多的企业认识到针对市场瞬息万变的顾客需求快速进行产品配置以争取顾客将成为未来企业间竞争的焦点。产品配置问题的核心是产
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定
高级在轨系统(Advanced Orbiting Systems, AOS)是一个对空空和空地的测控与通信数据及其它有效载荷数据进行数据处理及数据管理的系统,利用AOS可以以超高速率在空间系统与地
近些年来,人们逐渐地认识到软件过程对于软件产品质量的决定作用。因此,软件生产开始进入以改善软件过程为中心的软件工程时代。人们提出了许多适合于指导现代软件开发项目的软
在基于对等网络的流媒体系统研究中,高效的媒体资源管理策略是一个重点研究内容。目前基于对等网络的直播系统技术日趋成熟,但由于点播系统固有的高度交互性特点使其设计和实
随着“服务”重要性的提升,网格正逐渐演化为“面向服务的计算基础设施”。作为网格服务的基础,网格容器提供了基本运行环境。网格技术的广泛推广使得网格程序的规模在不断变大