论文部分内容阅读
随着计算机网络与通讯技术的发展与应用,电子邮件也得到了广泛的应用。但是,随之而来的垃圾邮件问题日益严重,反垃圾邮件技术的研究和发展越来越受到人们的关注。目前,设计实现了POP3邮件过滤代理模型,但该模型在其稳定性上不尽如人意,而且在邮件解析过程和分类过程的效率较低。在基于内容的邮件过滤中,基于规则的过滤方法的优点是可以在无标注样本的情况下实现垃圾邮件的分类,而且已经有现成的规则库可共享;缺点是这种方法需要手工编写规则,规则的形成落后于垃圾邮件特征的出现,因此经常出现垃圾邮件漏检现象。在邮件过滤系统的自学习方面,基于co-training的邮件过滤方法能够实现利用小规模标注样本和大规模未标注样本来提高分类器的性能,从而满足用户自适应的需要。基于上述研究背景,对POP3邮件过滤代理模型SAMFUF进行了优化,提出用规则与co-training融合过滤的方法实现无标注自学习反垃圾邮件服务。本文的主要工作和创新点如下:(1)在设计实现POP3邮件过滤代理模型的基础上,针对该模型在连接过程、邮件解析和分类过程中存在的问题,对邮件解析过程进行了重新设计,优化原POP3邮件过滤代理模型中词典等数据结构,将原模型中各模块对文本文件的操作改为对内存变量的操作,避免了频繁的磁盘I/O操作,并以静态库的形式实现邮件解析过程,简化调用程序。(2)将分类程序变成lib文件加入到POP3邮件过滤代理模型中,用线程调用分类算法的方法代替启动进程调用分类程序的方法,提高邮件分类的效率。(3)通过对基于规则的过滤方法的研究,验证了基于规则的过滤方法能够实现零标注下垃圾邮件过滤的要求。通过对基于co-training的过滤方法的研究,验证了基于co-training的过滤方法具有很强的自学习能力,通过自学习能够逐步提高分类器的性能。进而提出将规则和co-training融合的思想实现无标注自学习反垃圾邮件服务的要求。设计固定时间点切换过滤方法的系统实现规则和co-training融合的思想,并加入优化后的POP3邮件过滤代理模型中进行了相关测试。这是本文的创新点。通过实验表明,优化后的SAMFUF的连接稳定性和效率比优化前的代理模型都有一定提高,而规则与co-training融合的方法能够实现无标注自学习反垃圾邮件服务的要求,并有较好的分类性能。