【摘 要】
:
随着互联网的普及,电子邮件以其快捷、方便的特点已成为互联网上最重要的应用之一。但垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影
论文部分内容阅读
随着互联网的普及,电子邮件以其快捷、方便的特点已成为互联网上最重要的应用之一。但垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作。如何有效地防范垃圾邮件问题袭扰已成为人们亟待解决的问题。本文主要研究了邮件过滤算法和实现方法,主要工作包括如下几个方面:首先详细介绍了电子邮件系统的工作原理、电子邮件的体系结构、电子邮件所使用的协议以及电子邮件格式。为邮件过滤中的邮件格式的分析以及系统实现提供了前期的准备工作。然后对邮件过滤中常用文本分类算法进行了分析,并给出了常用的文本分类算法的性能评价指标,以召回率与精确度作为本文邮件过滤算法性能评价的指标。然后从贝叶斯算法的原理出发,分析了贝叶斯算法的主要思想和常用的基于贝叶斯算法的分类模型,总结其优劣,并结合神经网络技术,采用朴素贝叶斯算法和PG贝叶斯算法I、PG贝叶斯算法II三种贝叶斯算法的并行融合的策略,提出了一种基于多贝叶斯并行融合的邮件过滤算法,在垃圾邮件语料库上的实验数据表明,通过这三种贝叶斯算法融合的方法能有效的提高了过滤精确率和召回率,但会导致邮件系统效率降低。最后,在上述的基于多贝叶斯并行融合模型的邮件过滤算法的基础上,引入了一种特征项权重值的调整策略,采用文本证据权函数对文本特征的权值进行调整。在此基础上,设计了一个邮件过滤原型系统,对系统中的邮件预处理、文本分词、特征提取等主要功能模块进行了详细说明。对原型系统的测试结果表明,所提出的邮件过滤算法能有效地识别垃圾邮件,具有较高的过滤精度。
其他文献
随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页
互联网的出现给经济发展带来了新的机遇,但也带来了新的挑战。就在人们对互联网的依赖越来越深的同时,数以百万计的不法分子正在互联网上通过恶意网站进行诈骗和传播恶意软件
现阶段的万维网在信息表达与检索方面存在着一些严重的缺陷,为了解决这些缺陷,Tim Berners-Lee提出了下一代因特网的概念——语义Web (SemanticWeb)。在语义Web的七层结构中,
传统的聚类算法一般是采用基于距离为基础的数据聚类,但是随着样本维数的不断增多,数据点的间距差别很小,这样就使基于距离度量的聚类算法在高维数据领域失去意义,故传统基于
谱聚类算法是一种经典的聚类分析方法,与传统的聚类算法相比,它具有在任意形状的样本空间中聚类且收敛于全局最优解的优点,非常适合于许多实际问题,所以一直是机器学习领域中研究
数据库技术的迅速发展和广泛应用导致了“数据爆炸而知识贫乏”的现象。如何从现行管理信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿望,也
随着计算机技术的飞速发展,人们为了充分利用广域网上的分布式资源,提出了网格计算的概念。网格计算是分布式计算的一种,其目的是建立大规模计算和海量数据处理的通用基础支撑结
随着计算机网络技术的快速发展,网络安全问题越来越受到人们的重视。入侵检测技术作为一种主动的安全防护技术,能够及时地检测到各种恶意入侵并进行响应,入侵检测系统已成为
脉冲耦合神经网络(Pulse coupled Neural Network,PCNN)是被称为第三代人工神经网络的新型神经网络模型。它具有生物学背景,是在研究哺乳动物视觉皮层脉冲震荡现象的基础上提
RS与GPS为空间信息的采集提供了技术支持,GIS从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含数值