图像垃圾邮件过滤技术的研究

来源 :淮北师范大学 | 被引量 : 0次 | 上传用户:a341104361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究总结了目前图像垃圾邮件过滤技术和图像垃圾邮件分类的算法,并对各种垃圾邮件检测算法进行了性能分析。针对不同的图像垃圾邮件类型,本文提出了两种实现图像中文本区域定位的算法,最后提出了基于二级过滤的图像垃圾邮件识别算法,该算法是利用文本区域特征和基于关键字匹配相结合的思想,设计了二级过滤模型,能够较好的提高图像垃圾邮件的识别率。在文本区域定位算法中,针对背景单一的纯文本型垃圾邮件提出了基于边缘和形态学处理的文本区域定位算法,该算法首先利用彩色图像边缘检测进行边缘检测,对灰度边缘图像进行阈值分割处理去除一些干扰背景点,再结合形态学处理的相关技术提取出候选的文本区域,最后标记文字连通区域,从而完成文本区域的定位。针对背景复杂的图文混排型垃圾邮件提出了基于小波的文本区域定位算法,该算法是一种在复杂图像中检测文本的复合方法,利用二尺度的小波变换实现了对文本区域的粗检测和细定位,并在算法中结合了形态学的相关技术,最终实现了复杂背景的图像中的文本信息的精确定位。为了提高图像垃圾邮件的识别率,本文提出一种基于二级过滤的图像垃圾邮件识别算法。其中第一级过滤需要经过两个阶段,首先选择并提取出区分度好的文本区域特征并结合支持向量机分类算法来判断邮件是否为图像垃圾邮件;然后对图像中文字区域中的文字内容进行分析,提取出文字区域中的文字,采用基于关键字的匹配的方法来判断邮件是否为图像垃圾邮件。在第一级过滤后,可能有的垃圾邮被误判为正常邮件,因此需要第二级过滤,第二级过滤主要是对第一级过滤的结果进行分析判别,从而得到正确的分类结果。实验证明,经过二级过滤后可有效提高图像垃圾邮件的识别率。实验结果表明,本文提出的文本区域定位算法和图像垃圾邮件识别算法具有良好的鲁棒性,准确性较高。
其他文献
计算机辅助检测(Computer-aided detection, CAD)是指用数字图像处理技术和计算机视觉技术等,帮助医生解读海量图像,获得有价值的诊断信息。CAD系统不仅有助于提高医生诊断的
随着信息技术的高速发展,移动通信工具的使用已经渗透到人们日常生活的各个方面,同时人们对于移动通信网络服务质量要求越来越高。随着用户群的不断增大,移动通信网络所承受
无线传感器网络是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个以数据为中心的无线网络。大量传感器节点通过相互之间
本文以面向行程时间预测的公交车GPS数据挖掘为主题,围绕该主题,进行了相关内容的研究。论文共分七章。第一章给出了本论文的相关研究背景和意义、研究现状和论文主要研究工
计算流体力学(Computational Fluid Dynamics,CFD)采用数值计算方法针对复杂流动问题进行求解以发现各种流动的现象和规律,已经广泛应用在航空、航空、气象等领域。格子Boltzma
序列模式挖掘技术研究作为数据挖掘与知识发现领域的重要分支,它的目的是发现有趣的序列事件,为理论或实际应用提供数据支持。不同于传统序列模式挖掘思路,负序列模式提供了
随着互联网的高速发展,网络信息量大幅增长,面对海量数据信息用户无法快速有效地获得对自己有用的信息,即“信息过载”问题,搜索引擎和推荐系统是解决“信息过载”问题的重要
近年来,针对数据流的挖掘研究已成为数据挖掘领域中一个新的研究热点。和传统静态数据库中的数据不同的是,数据流具有连续的、无限性、和实时性的特点,使得传统的频繁模式挖
随着互联网的迅速普及,电子邮件在人们的生活中占据了越来越重要的地位。由于它使用方便、发送快捷、成本低廉等优点被人们使用,成为现代社会中非常重要和广受欢迎的通讯方式
视频水印是当今数字水印技术中的一个研究热点。在信息社会中,由于大量消费类数字视频产品的的增长,如VCD,DVD等网络多媒体数据,给人们前所未有的享受与便利的同时,数字产品