无标注自学习反垃圾邮件服务的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:dsfgsdfwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络与通讯技术的发展与应用,电子邮件也得到了广泛的应用。但是,随之而来的垃圾邮件问题日益严重,反垃圾邮件技术的研究和发展越来越受到人们的关注。目前,设计实现了POP3邮件过滤代理模型,但该模型在其稳定性上不尽如人意,而且在邮件解析过程和分类过程的效率较低。在基于内容的邮件过滤中,基于规则的过滤方法的优点是可以在无标注样本的情况下实现垃圾邮件的分类,而且已经有现成的规则库可共享;缺点是这种方法需要手工编写规则,规则的形成落后于垃圾邮件特征的出现,因此经常出现垃圾邮件漏检现象。在邮件过滤系统的自学习方面,基于co-training的邮件过滤方法能够实现利用小规模标注样本和大规模未标注样本来提高分类器的性能,从而满足用户自适应的需要。基于上述研究背景,对POP3邮件过滤代理模型SAMFUF进行了优化,提出用规则与co-training融合过滤的方法实现无标注自学习反垃圾邮件服务。本文的主要工作和创新点如下:(1)在设计实现POP3邮件过滤代理模型的基础上,针对该模型在连接过程、邮件解析和分类过程中存在的问题,对邮件解析过程进行了重新设计,优化原POP3邮件过滤代理模型中词典等数据结构,将原模型中各模块对文本文件的操作改为对内存变量的操作,避免了频繁的磁盘I/O操作,并以静态库的形式实现邮件解析过程,简化调用程序。(2)将分类程序变成lib文件加入到POP3邮件过滤代理模型中,用线程调用分类算法的方法代替启动进程调用分类程序的方法,提高邮件分类的效率。(3)通过对基于规则的过滤方法的研究,验证了基于规则的过滤方法能够实现零标注下垃圾邮件过滤的要求。通过对基于co-training的过滤方法的研究,验证了基于co-training的过滤方法具有很强的自学习能力,通过自学习能够逐步提高分类器的性能。进而提出将规则和co-training融合的思想实现无标注自学习反垃圾邮件服务的要求。设计固定时间点切换过滤方法的系统实现规则和co-training融合的思想,并加入优化后的POP3邮件过滤代理模型中进行了相关测试。这是本文的创新点。通过实验表明,优化后的SAMFUF的连接稳定性和效率比优化前的代理模型都有一定提高,而规则与co-training融合的方法能够实现无标注自学习反垃圾邮件服务的要求,并有较好的分类性能。
其他文献
承诺(commitment)是一个重要的密码原型,它提供隐藏性和绑定性两个基本性质,成为现代密码学许多协议和应用的重要构造元素,如零知识证明、数字签名、身份鉴别、电子投票、电子拍
随着互联网的发展及搜索引擎的广泛引用,针对用户搜索日志的分析与研究有了较快速的发展,并被应用于用户个性化剖析、搜索结果排序调整、搜索关键词修正和建议等等,为搜索引擎及
计算机科学的进步与发展,使得算法变得高效的同时,也越来越复杂。算法的抽象逻辑以及其自身的这利复杂性,使得越来越多的学习者对算法的学习和理解都普遍感到困难。因此,算法演示
双目立体视觉技术是计算机视觉的一种,本文结合双目立体视觉技术,以数字图像为对象,对摄像机标定、物体图像处理、特征点提取、特征匹配和点的三维坐标恢复等问题进行了理论
随着嵌入式技术的发展,智能移动终端越来越普及。其不断扩展的功能与不断丰富的软件支持,使得人们的日常生活越来越便利。并且,现在智能移动终端也越来越多地承担起了用户办
随着计算机应用的普及,很多业务系统被开发出来用于企业的业务流程管理,从而大大降低了企业的运营成本,也提高了企业的生产效率。为了应对市场变化,企业需要根据市场的变化及时调
早期智能卡的出现给人类的生活带来了诸多便利,同时也使得一个用户需要拥有多张卡,此外不同卡商拥有不同的卡开发命令也使得很多应用无法在不同的卡中使用。为了克服这些不足
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查找需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查找信息的时间。搜索引擎包含多个组成部分,其中网页
近年来,p2p技术有了广泛的发展,它打破了传统的客户机/服务器模式,让网络中的计算机以对等模式进行数据传递,在互联网的发展中已经成为重要的应用技术之一,并占据了高达50%以上的网
隐私数据发布是隐私保护数据挖掘的一个重要方向,但是时间序列的隐私发布问题还没有得到足够的重视。由于时间序列数据的高维特性和时序特性,传统的隐私数据发布方法往往造成数