论文部分内容阅读
随着互联网的普及应用,网上各种垃圾信息尤其是垃圾邮件也随着互联网的广泛应用而充塞在整个互联网上,对人们的工作生活和经济带来了重大的影响。因此,有效的垃圾邮件检测与过滤技术的研究是十分必要且切合实际需要的。在垃圾邮件的检测与过滤技术方面,国内外已有众多的相关研究,但是由于作弊者作弊技术的不断提高,相应的检测与过滤技术也需要不断地更新进步。在此发展形式下,本文对垃圾邮件的检测与过滤技术、垃圾信息的特征复原等多项关键技术进行了研究。本文的研究内容和创新工作主要包括以下几个方面:1从理论上证明了指纹向量距离在相似性垃圾信息检测与过滤方面应用的可行性。编辑距离是相似文档比较中精度最高的一种技术,但是其计算复杂度高、运算速度慢,具有较大的应用局限性。q元距离相对于编辑距离,精度降低了,但同时也降低了系统的复杂度,提高了运算速度。指纹向量距离是在q元距离的基础上将q元进行指纹映射,该方法提高了计算速度,但同时也引入了误差,降低了精度。本文通过理论分析,为指纹向量技术在垃圾信息过滤问题上的应用提供了理论依据。2在理论证明的基础上,实践上证明了指纹向量距离在垃圾信息过滤问题中的有效性。采用基于指纹向量的方法进行垃圾信息的检测,在公开数据集以及实际邮件系统数据集上的实验表明,基于指纹向量的垃圾邮件检测方法在垃圾邮件漏报率上与简单贝叶斯方法相比具有较优的效果,且与常规方法相比具有存储量小、计算代价小的优点。3本文提出了一种在线垃圾邮件主动学习过滤技术。该技术是基于流的委员会投票主动学习。通过与多种垃圾邮件过滤方法进行对比实验,实验结果表明该技术可以在使用少量标记的情况下能获得好的过滤性能,大大减少训练次数,提高计算性能,降低计算代价,降低人工干预次数。4本文提出了一种基于梯度树提升法的条件随机域技术对垃圾信息特征进行复原的方法。实验表明,采用基于梯度树提升法的条件随机域技术对垃圾信息进行预处理后,提高了垃圾邮件的检测精度。