论文部分内容阅读
随着互联网的快速发展,电子邮件已经成为人们日常生活必不可少的重要组成部分,它在各个方面都展现了极大的优势,受到人们普遍的欢迎。但同时每个邮件用户每天收到的各类垃圾邮件也越来越多,这不仅影响个人生活还对整个网络造成负担,危害极大,所以垃圾邮件的识别及过滤技术日益受到重视。
目前,基于邮件内容的垃圾邮件过滤技术是解决垃圾邮件的主流技术,采用的方法主要为基于规则的方法和基于概率统计的方法。以上方法都来自于普通文本分类技术,并应用于垃圾邮件过滤。但是,垃圾邮件过滤相对于文本分类仍存在差异,主要表现为:在数据内容上,邮件具有多语言、格式多样化、多编码的特点;在垃圾邮件判断标准上,每一具体用户对垃圾邮件的定义各不相同,因此需要动态满足用户个性化需求。
本文对当前的垃圾邮件过滤技术涉及算法进行研究和分析,主要存在计算复杂、缺乏个性化定制等问题。对于重视用户体验的电子邮件过滤服务来讲,好的性能与充分满足用户需求是关键。本文通过构建垃圾邮件全局本体和从未知邮件中抽取特征概念词生成局部本体,识别并过滤垃圾有害邮件,根据用户需求构建用户个性化本体,在过滤环节更能体现用户个性,让用户有更好的使用体验。具体来说,本文的主要工作包括以下内容:
(1)介绍垃圾邮件过滤的现状。包含垃圾邮件的定义、危害以及常用的过滤技术;
(2)概述电子邮件的传输机制、主要的电子邮件相关协议、电子邮件内容格式等电子邮件相关知识;
(3)参照Wordnet词典结构,构建了电子邮件领域内的垃圾邮件语义词典,应用于做特征概念相似度计算;
(4)基于垃圾邮件自身特点,设计并构建了垃圾邮件全局本体以及用户个性化本体库,提出了面向未知邮件的权值计算算法;
(5)设计了基于本体的垃圾邮件过滤的基本框架。