论文部分内容阅读
持续增长的垃圾邮件已严重威胁到人们的正常交流,为遏止垃圾邮件进一步扩散,学者们已提出大量垃圾邮件检测算法。目前,利用文本内容特征识别垃圾邮件是主要的检测手段,并被广泛应用于各种反垃圾邮件系统。为逃避此类系统的检测,垃圾邮件制造者将垃圾信息嵌入图像并以附件形式发送。导致几乎所有基于文本内容的反垃圾邮件工具失效,该类型垃圾邮件被称为“图像型垃圾邮件”。本文详细分析了这种新型垃圾邮件的特点,并深入探讨其检测方式。首先,对图像型垃圾邮件检测技术的现状作了综述。包括图像型垃圾邮件检测的难点、用于识别图像型垃圾邮件的图像特征、机器学习算法及算法性能的评价标准。利用图像特征识别图像型垃圾邮件是目前的主要途径,但已分析出的图像特征并未取得理想的识别效果。因此,本文主要工作在于挖掘出更理想的可用于识别图像型垃圾邮件的图像特征。含有大量文字是垃圾邮件图像的重要特征,为提取文字角点信息,提出一种适合于垃圾邮件图像的角点检测算法。首先利用彩色边缘检测算子和阈值分割算法获取图像边缘,然后采用一个圆形模板提取文字角点信息。边缘检测和阈值分割可以去除大部分干扰,圆形模板对文字方向不敏感。实验表明,新算法具有比SUSAN算法更好的角点定位效果,并可同时获取角点的近似角度值。利用所获取的角点信息,本文进一步提出一种改进的文本区域定位算法——ECTL。其核心思想是利用角点等边缘特征识别并去除非文字边缘,降低干扰边缘对文本区域定位的影响。实验表明,ECTL算法能够定位图像中96%的文本区域,精确率超过97.6%。最后,本文提出并实现了两种有效的图像型垃圾邮件检测算法。算法一利用ECTL算法定位图像中的文本区域从而提取文本区域特征,结合图像属性特征能够识别超过98%的图像型垃圾邮件。算法二无需定位文本区域,利用颜色和角点特征识别图像型垃圾邮件。实验表明,其识别精度略低于基于文本区域特征的图像型垃圾邮件识别算法。但提取每一幅图像的文本区域特征和属性特征约需400ms,而提取颜色和角点特征仅需112ms。相比之下,算法二的实时性更好。目前,两种算法均已作为重要的功能模块集成到自主研发的AONE反垃圾邮件原型系统中。