基于内容特征的垃圾邮件过滤问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:li5815736
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展和日益普及,电子邮件作为一种经济、快捷的通讯方式,已经成为互联网用户必备的交流工具。然而,随之产生的垃圾邮件的泛滥也给用户带来了极大的不便,由于垃圾邮件多由专门的邮件地址搜索软件和邮件群发软件来实现电子邮件地址的收集以及垃圾邮件的散发,单纯依靠手工的方式进行垃圾邮件的辨别是不可行的,必须借助一定的技术手段进行反垃圾邮件工作,因此,有效的防治垃圾邮件成为一个日益重要的研究领域。本文的研究内容有以下几个方面:(1)简要介绍了垃圾邮件的相关概念,分析了垃圾邮件的危害、反垃圾邮件的应用背景、现状,主流过滤方法和挑战。概述了电子邮件的基本知识,探讨和研究文本邮件过滤中的中文分词、数据表示、特征降维、分类技术以及难点和突出问题。(2)提出一个综合利用邮件的主题信息、联系方式信息以及邮件新格式—图片邮件特征构建的邮件特征集,在此基础上采用三种不同的分类算法构建分类器,试验结果表明,在提出的邮件特征集基础上构建的分类器能很好的进行邮件过滤。(3)在进一步研究邮件内容特征的基础上,建立基于增量式主动学习来动态更新邮件的特征集,选取最有价值的邮件特征更新邮件特征库,利用有效邮件特征来提高过滤器的精度。实验结果表明,在综合利用邮件内容特征和主动学习训练器基础上构建的分类器能很好的实现垃圾邮件的过滤。
其他文献
无线传感器网络是一种集中了微机电技术、嵌入式计算技术、分布式信息处理技术和无线通信技术的全新的信息获取和处理模式,是近年来最有发展前景的技术之一。在无线传感器网
随着4G手机的普及以及5G时代的到来,海量应用随时随地的便捷使用将智能手机、平板电脑推向高峰。各种智能设备成为了人们工作生活娱乐必不可少的工具,而搭载Android操作系统的
云计算是一种数据服务的新模式。它可以通过互联网,为用户提供存储和计算资源。在云计算中,数据拥有者习惯于将他们的数据存储到云端服务器。这种数据外包存储带来许多好处,
复合企业应用通常依赖基于模块化和部件化的系统结构,这种系统结构可以从云技术的弹性、灵活性、可扩展性和高可用性中受益。由于缺少一个统一的应用拓扑和编排规范,各个云提供商向用户提供了其平台特有的方式来使用云服务,如API或者DSL描述的工具.这就会导致云供应商锁定的情况发生,从而降低了应用的可移植性,增加了企业应用的迁移成本。本文主要对TOSCA(Topology and Orchestration
随着人们对更高分辨率,更为清晰的视频需求的发展,在存储空间和网络带宽仍然有限的情况下,视频压缩中的码率控制显得尤为重要。如何在网络通信条件限制下为用户提供尽可能最
随着我国第一个全国性下一代互联网CNGI核心网CERNET2正式开通,IPv6下的各项应用成为学术、商业界研究的热点。本文从防火墙的功能和IPv6的安全协议即IPSec的功能两个方面做
为了能在复杂背景中对人脸的检测率达到更高的水平,本文以采用在检测前做好前提工作即检测预处理,它能够更好的检测出人脸的区域,同时去除与人脸相似的部分,使检测结果更加准
随着数码摄影技术的发展,数码相机越来越普及,数字图像在日常生活中扮演了越来越重要的角色。另一方面,Adobe Photoshop等优秀图像处理软件功能的强大,使得图像的修改越来越
近年来,随着电子技术和无线通信技术日新月异,出现了低成本、低能耗、多功能的传感器节点。这些传感器节点体积小,可以进行短距离的通信,它们通常由传感器、数据处理以及通信
在信息技术、网络技术和通讯技术为基础的电子商务环境下,信息社会的快速发展使得旅游信息资源数量日益庞大,以致于人们在面对海量的旅游信息时往往会无从入手,对旅行地区及