基于语义的垃圾邮件过滤技术的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tcliany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件的兴起伴随着垃圾邮件的产生,随着互联网的普及和发展,电子邮件成为人们日常工作和生活中必不可少的交流方式,甚至已经成为文件和文档进行快速传输的主流载体。而垃圾邮件问题却日益严重并越来越深切的影响着人们的工作和生活,垃圾邮件不仅严重占用和浪费了网络带宽和计算资源,而且还带来各种各样的安全隐患,威胁着人们的信息安全。虽然人们已经提出了很多相应的解决对策和方法,但是垃圾邮件仍呈现出持续性的爆炸式增长的趋势。垃圾邮件的过滤拦截可以通过影响和控制电子邮件传递过程中的各个环节来实现。本文主要研究通过对电子邮件的正文内容进行语义识别来实现垃圾邮件过滤的方法和技术。垃圾邮件的内容和形式不管如何变化,必定会传达出某种语义信息,以这些语义信息作为垃圾邮件过滤和拦截的基础,会有效提高垃圾邮件拦截的效率和效果。传统的特征选择方法大多是基于统计学的,并且总是将文本中的字、词、短语拆分开来做为单独的特征项来处理,将文本单纯的看作一堆字词的堆砌,抛弃了不同语法结构、语言环境、词汇搭配所表现出的语义信息。本文提出了一种针对中文邮件的基于内容的垃圾邮件过滤技术,并在公共语料集TREC06c上进行了实验,获得了良好的结果。本文首先采用了逐层在文本上添加注释来提取语义信息的方法,然后将提取出的语义信息进行筛选后作为表示文本的特征项来构建决策树并最终生成分类器,实现了文本的识别和分类。这种方法的优势在于既能够准确表达文本的内容含义,又能够达到科学有效的降维效果。因此,直接选取词汇作为特征来表示文本,而提取文本的语义信息作为特征项来表示文本,是一种更加科学有效的特征选择方法。采用语义作为特征项有两个明显的优势。一是,对文本内容的反映更准确,更有利于实现准确的文本分类;二是,与传统方法相比,特征项的数量显著减少了,运算压力更小。本文主要研究的第二个问题是在科学有效的筛选出特征项的基础上,运用决策树方法来完成垃圾邮件的多分类任务,因为实现垃圾邮件的多分类更加有助于实现邮件过滤和拦截的个性化,注重了用户隐私。从自然语言处理的方面来看,本文中介绍的这一方法作为一种针对文本内容的多分类技术,在自然语言处理中也具有巨大潜力。
其他文献
Petri网是集图形化表示和数学理论于一体的建模语言,可以描述常见的顺序、选择、循环和并行等行为,广泛应用于并发分布式系统的建模、分析和验证。Petri网的语义可以划分为行为
随着信息技术的发展,教育的形式与方法均发生了巨大的变化,并产生了大量与教育相关的数据。同时,大数据处理技术的发展及数据挖掘领域的繁荣使得大数据时代逐渐到来。将数据
隐写术作为信息安全中的一项重要技术,随着互联网与通信技术的蓬勃发展引起了广大学者和相关部门的高度重视,针对隐写术这一隐蔽通信手段,反隐写技术—隐写分析术也成为近年
Ad Hoc网络是一个复杂的分布式系统,具有动态变化的拓扑结构。Ad Hoc网络没有任何中心和固定基础设施,每个节点都具有主机与路由器的双重功能,形成一个多跳分布式网络。如何
图像缩放是图像处理领域的重要基本操作之一,在军事侦察、医学图像处理、天文观测、数字摄影以及互联网等诸多领域有广泛应用。图像缩放即改变图像的分辨率,就是根据源图像的
随着微电子、通信技术和计算机网络技术的发展,无线传感器网络已广泛应用于军事探测、环境检测以及其他商业环境中。在一些特殊的应用场合中,需要保证传感节点之间的数据传输
随着科学技术的快速发展,各种软件产品出现在人们的生活当中,因此人们对于软件质量的要求也逐渐提升。软件测试是比较复杂耗时的,然而良好的软件测试方案,测试方法对于减少软
三维扫描技术由于在生产生活中有着广泛的应用而受到了很大的关注。可移动式三维扫描技术受外界约束少,能较快完成扫描任务,是三维扫描技术研究中的热点之一。常见的可移动式
随着Internet的迅速发展,现有的IPv4协议在应用中出现了很多不足,如地址资源即将耗尽以及对安全性无法保证等。IPv6的出现为互联网的发展带来了新的希望,它取代IPv4成为了发展的
随着彩色图像在现实生活中的各个领域得到广泛应用,颜色也成为衡量图像质量的主要标准,因此,获取和显示精确的颜色变得越发重要。传统方法中颜色的信息都是与设备相关的,存在