图像型垃圾邮件过滤技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yaoyao2048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
持续增长的垃圾邮件已严重威胁到人们的正常交流,为遏止垃圾邮件进一步扩散,学者们已提出大量垃圾邮件检测算法。目前,利用文本内容特征识别垃圾邮件是主要的检测手段,并被广泛应用于各种反垃圾邮件系统。为逃避此类系统的检测,垃圾邮件制造者将垃圾信息嵌入图像并以附件形式发送。导致几乎所有基于文本内容的反垃圾邮件工具失效,该类型垃圾邮件被称为“图像型垃圾邮件”。本文详细分析了这种新型垃圾邮件的特点,并深入探讨其检测方式。首先,对图像型垃圾邮件检测技术的现状作了综述。包括图像型垃圾邮件检测的难点、用于识别图像型垃圾邮件的图像特征、机器学习算法及算法性能的评价标准。利用图像特征识别图像型垃圾邮件是目前的主要途径,但已分析出的图像特征并未取得理想的识别效果。因此,本文主要工作在于挖掘出更理想的可用于识别图像型垃圾邮件的图像特征。含有大量文字是垃圾邮件图像的重要特征,为提取文字角点信息,提出一种适合于垃圾邮件图像的角点检测算法。首先利用彩色边缘检测算子和阈值分割算法获取图像边缘,然后采用一个圆形模板提取文字角点信息。边缘检测和阈值分割可以去除大部分干扰,圆形模板对文字方向不敏感。实验表明,新算法具有比SUSAN算法更好的角点定位效果,并可同时获取角点的近似角度值。利用所获取的角点信息,本文进一步提出一种改进的文本区域定位算法——ECTL。其核心思想是利用角点等边缘特征识别并去除非文字边缘,降低干扰边缘对文本区域定位的影响。实验表明,ECTL算法能够定位图像中96%的文本区域,精确率超过97.6%。最后,本文提出并实现了两种有效的图像型垃圾邮件检测算法。算法一利用ECTL算法定位图像中的文本区域从而提取文本区域特征,结合图像属性特征能够识别超过98%的图像型垃圾邮件。算法二无需定位文本区域,利用颜色和角点特征识别图像型垃圾邮件。实验表明,其识别精度略低于基于文本区域特征的图像型垃圾邮件识别算法。但提取每一幅图像的文本区域特征和属性特征约需400ms,而提取颜色和角点特征仅需112ms。相比之下,算法二的实时性更好。目前,两种算法均已作为重要的功能模块集成到自主研发的AONE反垃圾邮件原型系统中。
其他文献
图像超分辨率重构广泛应用于医学图像处理、视频监督、天文学研究等领域,主要思想为利用已知的图像信息补充低分辨率图像丢失的细节信息,进而重构出期望的高分辨率图像。现有
群小区架构是一个广义协作分布式架构。该架构可以充分利用多天线技术带来的优势,适应物理层先进技术并且能够有效解决由于载频提高导致小区面积减小而带来的频繁切换问题。
数字抠图技术是把图像中的特定部分从其他部分中分离出来的一种图像处理技术,它在图像处理、影视制作及虚拟现实领域有着广泛的应用。最初出现的蓝屏抠图技术和差异抠图技术对
随着移动通信向着高速宽带发展,在传输速度的要求下,频率资源变得越来越宝贵。未来的通信系统必须充分利用有限的频谱资源,频带有效性和功率有效性的矛盾日益突出,而编码调制
目前声波测井地面系统采用多种通讯方式实现数据传输,如串口方式、PCI总线方式、USB总线方式等。这些通讯方式在速度、传输距离、可靠性或应用简便性等方面有一定限制,无法完
随着Internet和图像处理技术的快速发展,视频监控的规模不断地扩大,基于网络的智能视频监控技术得到了广泛的应用,如交通监控、智能小区、银行、学校等领域。由于硬件及网络
全球导航卫星系统(GNSS)目前有四种体系结构,四种系统都将在本世纪二十年代全面建成并投入使用。对四种卫星定位系统信号的综合利用将是未来定位技术发展的趋势。四种体系都提
为了满足指数式增长的通信需求,混合网络已经成为了下一代移动通信系统的关键技术,具体分为蜂窝网络与设备到设备(Device-to-Device, D2D)网络所组成的混合网络和宏小区与多个
学位
USB是数字有线通信设备应用十分广泛的接口之一,但USB接口两端的设备有主从之分,因此USB接口不支持任意两个USB设备之间的直接通信。OTG的出现解决了这一问题,支持OTG规范的U