代价敏感的个性化邮件过滤技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wyywzc21200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet飞速发展和普及,使得电子邮件成为信息交互的重要工具。但是,垃圾邮件的传播却严重干扰了用户的日常生活和信息的正常通信,电子邮件成为各类广告、政治反动宣传、病毒传播及恶意攻击的工具,占用大量带宽资源,并经常引起严重的邮件欺骗和安全问题。因此,研究邮件过滤技术具有举足轻重的作用。   在邮件过滤中,分类的任务是期望建立误分类最小的分类器,在传统上都是基于分类错误具有相同的代价假定上的。众所周知,如果用户查看大量垃圾邮件会浪费用户的时间,相反如果漏掉用户特别重要的邮件则会造成用户损失。显然,相对于前者,后者所付出的损失代价要远大于前者所付出的代价。对一批邮件而言,可能存在的情况是全部邮件中仅有极少数是用户真正需要的,则在最糟糕的情况下,使用传统分类方法产生的分类器只需要以大多数的邮件为标准作为分类即可获得比较高精度的分类结果。但此时这个分类器也就失去了存在的价值。因此在处理分类不平衡数据时,单纯以分类精度作为分类器的标准就显得不恰当。一种合理的解决方法是以代价敏感来取代精度敏感的分类。因此,本文研究中,根据邮件过滤特点和用户兴趣,结合对分类结果的后处理代价敏感学习方法、可适应推进算法以及阈值过滤邮件的思想,给错误分类的重要邮件赋予相应的权值,以引起下一轮分类中更加重视,这样当学习完弱分类器后,按照阈值高低进行过滤邮件,误分类代价就会减小。实验结果表明:改进后的方法能根据用户兴趣对分类器进行设置,减少了误分类代价。   信任覆盖邮件过滤模型提供了分布式的过滤能力、实现了结点间的相互推荐。在结合用户兴趣的差异性,还有待改进,从而满足用户个性化的需求。本文分析了信任覆盖模型的特点,提出了改进的信任覆盖邮件过滤模型。本模型能反映垃圾邮件趋势,能根据用户兴趣过滤邮件,并把用户对邮件的评判情况反馈给邮件服务器中的可信管理模块。客户端系统模拟表明,用户能调整阈值过滤邮件,反馈后误判率和漏判率有一定降低。   最后,本文将第三章的算法应用于实际的邮件收发中,设计并实现了邮件过滤系统,测试表明系统基本上能够实现用户按兴趣邮件分数高低查看的功能。
其他文献
学位
轨迹聚类是将相似的轨迹分组,是分析运动轨迹数据的一项非常重要的技术。实际上,大多数聚类算法都面临两个具有挑战性问题,即选取合适的轨迹间距离度量方法和确定最优的聚类
遗传算法是一种借鉴生物界自然选择和进化机制而发展起来的高度并行、随机、自适应的优化搜索算法。排课问题是学校教务工作的重要内容之一,课表的编排是一个复杂的多目标优
对当前的存储系统及设备,能耗和实际应用程序的性能逐渐超越简单的硬件特性成为重要性能评估指标之一。这主要表现在两个方面。其一,随着硬件和电力开销的上升,系统及设备的功耗
虚拟现实技术随着它不断的发展与完善,它在我们社会、学习和生活的每一个领域都得到了极其广泛的应用和发展,重要应用之一就是数字化虚拟校园系统。该系统可以为我们提供一个
相对于CPU计算能力的提高、网络带宽加大,存储设备的发展已经跟不上计算机主要部件和网络发展的速度,以至于存储设备已经成为现代基于云计算的计算机系统的瓶颈。伴随着基于
随着人类社会的飞速发展,许多复杂性、非线性、庞大系统等方面的问题大量呈现在人们的面前,传统的优化方法已经逐渐陷入了困境。这时,自然界中那些群居的简单生物表现出来的复杂
图像引导放疗(IGRT)是在三维适形放疗和调强放疗出现之后,刚刚兴起的又一种精确放疗技术。它充分考虑了患者在治疗过程中和分次治疗间存在的各种误差,利用各种先进的图像引导设
随着多媒体和互联网技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,广播音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效地对音频信息进行组织