论文部分内容阅读
Internet飞速发展和普及,使得电子邮件成为信息交互的重要工具。但是,垃圾邮件的传播却严重干扰了用户的日常生活和信息的正常通信,电子邮件成为各类广告、政治反动宣传、病毒传播及恶意攻击的工具,占用大量带宽资源,并经常引起严重的邮件欺骗和安全问题。因此,研究邮件过滤技术具有举足轻重的作用。
在邮件过滤中,分类的任务是期望建立误分类最小的分类器,在传统上都是基于分类错误具有相同的代价假定上的。众所周知,如果用户查看大量垃圾邮件会浪费用户的时间,相反如果漏掉用户特别重要的邮件则会造成用户损失。显然,相对于前者,后者所付出的损失代价要远大于前者所付出的代价。对一批邮件而言,可能存在的情况是全部邮件中仅有极少数是用户真正需要的,则在最糟糕的情况下,使用传统分类方法产生的分类器只需要以大多数的邮件为标准作为分类即可获得比较高精度的分类结果。但此时这个分类器也就失去了存在的价值。因此在处理分类不平衡数据时,单纯以分类精度作为分类器的标准就显得不恰当。一种合理的解决方法是以代价敏感来取代精度敏感的分类。因此,本文研究中,根据邮件过滤特点和用户兴趣,结合对分类结果的后处理代价敏感学习方法、可适应推进算法以及阈值过滤邮件的思想,给错误分类的重要邮件赋予相应的权值,以引起下一轮分类中更加重视,这样当学习完弱分类器后,按照阈值高低进行过滤邮件,误分类代价就会减小。实验结果表明:改进后的方法能根据用户兴趣对分类器进行设置,减少了误分类代价。
信任覆盖邮件过滤模型提供了分布式的过滤能力、实现了结点间的相互推荐。在结合用户兴趣的差异性,还有待改进,从而满足用户个性化的需求。本文分析了信任覆盖模型的特点,提出了改进的信任覆盖邮件过滤模型。本模型能反映垃圾邮件趋势,能根据用户兴趣过滤邮件,并把用户对邮件的评判情况反馈给邮件服务器中的可信管理模块。客户端系统模拟表明,用户能调整阈值过滤邮件,反馈后误判率和漏判率有一定降低。
最后,本文将第三章的算法应用于实际的邮件收发中,设计并实现了邮件过滤系统,测试表明系统基本上能够实现用户按兴趣邮件分数高低查看的功能。