论文部分内容阅读
随着互联网技术的蓬勃发展,垃圾邮件的泛滥已经成为一个备受关注的社会问题。伴随反垃圾邮件技术研究和应用的不断深入,垃圾邮件的制造与发送手段也层出不穷,单一层面的反垃圾邮件技术已不能满足需求。本论文对垃圾邮件行为识别的关键技术进行研究,提出了一种新的识别方法,即在“信息-知识-智能”统一理论指导下,应用数据挖掘中的关联规则和序列模式挖掘,对邮件连接会话中收件人地址字段的信息挖掘进行建模,从而可在会话期将其识别。首先,我们从理论和实验上,证明已有的决策树行为识别模型与原有的内容过滤技术可协同工作。考虑到行为识别技术对于网络带宽和系统负载的保护功能,行为识别与现有技术相结合是可行且必要的。进而,我们继续从数据挖掘中的关联规则和序列模式挖掘入手,在邮件连接的会话阶段,对垃圾邮件的另一个根本特征之一——收件人地址特征——进行识别,使“垃圾邮件行为识别模型”可以进一步识别邮件列表攻击、收件人字典攻击以及动态IP发信等垃圾邮件发送行为。实验结果表明,添加邮件列表攻击识别后的“垃圾邮件行为识别模型”保持了较高的准确度;同时,召回数目是只采用决策树识别模型召回数目的近1.5倍。而收件人字典攻击识别以及动态IP发信行为识别的单项召回率均达到50%以上。本论文为反垃圾邮件提供了一个新的并且是行之有效的解决方案。