基于免疫原理的垃圾电子邮件检测方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:dejia2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数量庞大的垃圾电子邮件既造成资源的浪费,又对计算机安全构成威胁。为了解决这些问题,相关研究人员从多个角度出发研究垃圾电子邮件处理方法。在现有的方法中,机器学习方法和人工免疫系统准确率高、鲁棒性好、自适应性强,且应用最为广泛,具有重要的研究意义和良好的发展前景。本文深入分析和讨论机器学习方法和人工免疫系统的原理和特点,并将两类方法的机制相融合,围绕特征提取、分类器设计、多分类器集成三个方面,研究基于免疫的垃圾电子邮件检测方法,主要贡献包括:  (1)提出一种基于免疫局部浓度的特征提取方法。该方法将免疫局部浓度思想与统计学方法相结合,采用词筛选方法有效过滤噪声并降低计算复杂度,通过基因倾向度函数增强检测器集的抗噪能力和鲁棒性,并运用定长和变长滑动窗口策略有效提取出与位置相关的浓度信息。该方法提取的局部浓度特征具备统计意义的可区分性,取得了较高的准确率和F1度量值。  (2)针对数据分布不均的学习问题,提出一种多目标风险最小化学习准则。在数据分布不均的情况下,单独采用全局或局部风险最小化学习准则不能取得最优的分类效果。为了解决该问题,该准则在学习过程中同时兼顾到全局风险和局部风险,使得学习模型与数据分布间更好地匹配。  (3)提出一种基于免疫危险区域原理的动态学习方法。该方法是对多目标风险最小化学习准则的一种实现,运用免疫危险区域对局部分布进行估计,并对学习模型的局部特性进行动态调整,以使学习模型与数据分布相匹配。与全局和局部方法相比,该方法取得了较优的分类性能,反映了多目标风险最小化学习准则的合理性。  (4)提出一种基于免疫危险理论的多分类器集成方法。该方法运用不同的分类器分别产生匹配信号和危险信号,并定义出相关的危险区域对信号间进行交互,进而判别各个分类器对新邮件分类的一致性,并在此基础上选取出一致性好的分类器进行加权分类。仿真实验表明,该方法能够有效地综合各分类器的特点得到更优的分类性能。  (5)将动态学习方法与多分类器集成方法相结合,进一步提出一种带局部调整策略的多分类器集成方法。当分类器集合不能取得有效一致的分类时,对整个集合的局部特性进行动态调整,使得集成模型与数据分布间更好地匹配。与现有的多分类器集成方法、多分类器选择方法相比,该方法取得更高的集成性能。
其他文献
近年来,三维模型作为新一代数字媒体,其在工程、医学及科研领域的应用越来越广泛。而随着三维模型建模技术,及计算机硬件和互联网的不断发展,三维模型的数量开始呈现出以几何
学位
人们的工作和娱乐都离不开计算机,也离不开各种类型的电子文档。网络信息爆炸使得每个人都接触到大量文档,如何有效的管理文档已经变成一个重要课题;而且个人拥有多种计算机设
由于网络浏览的便捷性和广泛性,网站中被植入木马病毒已经成为互联网的主要安全威胁之一。它不仅能攻破大量主机,而且能导致大规模的僵尸网络,成为黑客地下经济链的重要一环,
混合动力汽车(HEV)作为一种低耗能、低排放的新型汽车,正受到当今汽车工业越来越多的关注。其技术的关键在于对两种不同的动力源采取合适的能量管理控制策略。计算智能是利用
随着航天遥感技术的发展,星上采集的数据量增大,星载嵌入式系统的处理能力和存储能力必须得到提升。在存储方面,必须采用大容量存储器将采集到的数据可靠存储下来。在处理方面,必
随着网络带宽的不断提升和计算机软硬件技术的成熟,构建3D教学平台的时机已经成熟。3D教学平台独特的沉浸感、交互性和构想性使得它在中小学教育领域具备了得天独厚的优势,目
词的搭配对于人们理解句子、产生准确和流畅的语言都具有重要作用,对于提高自然语言处理任务如机器翻译、问答系统等的性能都具有重要作用。本文首先从搭配结合的紧密性、组
多尺度量子谐振子算法(Multi-Scale Quantum Harmonic Oscillator Algorithm,MQHOA)是新近提出的一种全局优化算法,它从量子力学的角度,利用谐振子运动的物理含义和与优化问题的
脑血管疾病是人类致死的第一大疾病,极大地威胁着人类健康。通过医学影像以非入侵的方式实现脑血管的提取具有无创、高效的特点,可被病患广泛地接受。人体脑血管具有拓扑结构