论文部分内容阅读
摘 要: 近年来,图像型垃圾邮件数量的迅速增长使得传统垃圾邮件过滤系统面临重大挑战,并逐渐成为信息安全领域的研究热点。为了能够快速、有效地滤除图像型垃圾邮件,学者们提出了大量的过滤检测方法。首先简要介绍了图像型垃圾邮件给我国带来的影响;然后结合垃圾邮件图像的特征,对图像型垃圾邮件过滤的主要技术:基于近似特征的过滤、基于图像文本特征的过滤、基于图像浅层特征的过滤等进行了分析;接下来对图像型垃圾邮件数据获取方法进行了介绍;最后对过滤技术的研究方向以及面临的挑战进行了讨论和展望。
全文查看链接
图1为利用反垃圾邮件综合处理平台捕获的部分垃圾邮件图像样本。具体来说,图1为受不同类型噪声干扰的图像样本,在这些垃圾邮件图像中使用了波动干扰、旋转干扰、背景图像干扰等多种干扰手段,给现有过滤系统制造了一定的困扰和防范阻碍。
全文查看链接
为了应对文本过滤器,垃圾邮件制造者还常采用错拼、误拼等方法混淆一些关键字,如:mortgage拼写为“mort gage”, “mo>rtglage”等。同时,对于添加噪声干扰的图像, OCR提取的文本信息还可能存在大量的错拼、误拼等现象。另外,OCR通常很难辨别‘u’和‘v’, ‘i’和‘I’, ‘l(el)’和‘1(one)’等字符。因此,为了进一步提高OCR应用的准确性,一些学者提出了改进方法。澳大利亚堪培拉大学的Ma等[19]提出为样本库中的每个关键字建立马尔科夫模型,由此对于OCR提取的未知字符序列,就可借助假设检验阈值依次判断该字符序列是否为某关键字的误拼。美国斯坦福大学的Lee等[20]利用字典树隐马尔科夫模型(LT-HMM)对邮件文本内容中的误拼、错拼等情况进行了详细分析,利用英文字典中常用的45 475个单词,以及ASCII码表中除控制符外的字符构建了一个更加鲁棒的隐马尔科夫模型,并通过统计常用的单词字符组合以及误拼、错拼情况构建了隐状态转换表和发射状态转换表。该方法可以对误拼、错拼、字符片段进行良好勘误,且具有较高的鲁棒性。但是LT-HMM具有大量的状态,内存开销较大。针对该问题,韩国浦项工科大学的Lee等[21]通过将具有相同发射概率的状态组合为超级状态,提出了一种利用动态加权隐马尔科夫模型降低HMM复杂度的方法,该方法则有效降低了HMM的状态数。上述这些手段均有利于提高利用图像文本内容实行过滤的各类方法的准确性。
全文查看链接
2 图像型垃圾邮件过滤相关产品及开源工具
全文查看链接
参考文献:
全文查看链接
[17]YOUN S, MCLEOD D. Improved spam filtering by extraction of information from text embedded image E-mail[C]//Proceedings of the ACM Symposium on Applied Computing, 2009:1754-1755.
全文查看链接