中文邮件过滤系统的研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zhurichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一。然而,大量出现的垃圾邮件,给用户造成了时间和资源上的浪费,同时也极大地消耗了网络传输资源以及邮件服务器的存储空间,并对网络安全构成威胁。本文针对这一问题展开研究。目前,常用的包括黑名单与白名单技术、基于关键词搜索以及设定过滤规则等方法。在实际使用中已逐渐不能满足过滤需求,基于内容分析的文本分类技术正逐步进入邮件过滤技术当中,并成为当前研究热点。其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯模型。本文结合文本分类技术以及贝叶斯理论,提出了基于粗集属性约简的贝叶斯中文邮件过滤技术,它通过基于粗集属性约简的特征提取,并在贝叶斯分类方法中通过计算属性间的依赖性来提高朴素贝叶斯算法的适用性。同时,本系统还结合了邮件的一些自身特性来提高过滤效果。并围绕这种针对中文邮件的贝叶斯过滤技术来叙述相关的关键技术与方法,其中主要内容有:(1)计算邮件的MD5值,系统通过计算每封邮件的MD5特征值,来统计内容相同邮件出现的次数,当次数超过一定阈值β时,认为这些为垃圾邮件;(2)根据N-最短路径方法对中文邮件进行中文分词处理,通过改进的向量空间模型方法在计算机中表示文本;(3)在特征项选取方面,提出一种基于粗集属性重要度和属性依赖度的约简算法,利用基于粗集的属性约简方法,在不损失原有信息的前提下,(?)综合考虑条件属性和决策属性间的依赖性以及条件属性间的依赖性对约简的影响,获取属性的最优约简;(4)在贝叶斯分类技术中,朴素贝叶斯算法引入了“特征之间互相独立”的假设,而在实际的中文邮件中,特征属性之间往往存有一定关联,当违背条件独立的假定时,简单贝叶斯分类器也表现出相当的鲁棒性,本文把特征间的这种依赖性考虑进来,提出了基于最优属性约简算法的贝叶斯分类器算法。它改善了属性变量间独立性的限制,提高了分类的准确性,使贝叶斯技术适用于更大的范围。此外,本文在此研究的基础上对该过滤方案进行了实验,设计与实现了一个中文垃圾邮件过滤系统。
其他文献
随着人们对于无线通信技术需求的不断增加和对该技术的关注,无需设置任何中心控制节点的Ad Hoc网络日益成为研究的焦点。它可以满足人们在没有无线基站配置的任意地点自由地
日益激烈的市场竞争和日趋复杂的生产过程,促进了企业将信息技术、计算机技术,智能控制等先进技术引入生产过程控制之中,为企业实现现代化质量管理与质量保证奠定了基础。开展以计算机技术应用为基础,以信息集成为核心,结合先进的智能过程控制技术、信息处理技术和现代质量管理方法,构建企业现代质量管理新模式并在现代集成制造系统(CIMS,Contemporary Integrated Manufacturing)
随着计算机技术和互联网技术的飞速发展,地理信息系统(GIS)的应用已深入到社会生活的各个方面。地理信息系统作为一种特殊的信息管理系统,其安全可靠性是非常重要的。GIS的核心
随着信息技术不断发展,计算机犯罪问题日趋严重,它直接危害国家的政治、经济、文化等各个方面的正常秩序。现有的网络安全方面的研究多着眼于防犯入侵,而对入侵取证的问题研究较
卫星通信系统具有三维无缝覆盖、远程通信、广播,以及支持移动性的能力,已经广泛应用于广播电视网络。在太空探索、军事或资源勘测等工作中,卫星通信的作用更是不可替代。卫星网
随着知识经济时代的到来,人们对知识的渴求度不断增加。Internet的迅猛发展和普及,使得网络逐渐成为人们获取信息的主要手段,网络教学也应运而生。作为一种新型的教学方式,网络教
随着计算机技术的不断发展,计算机网络日益向全球的各个角落辐射,其触角已经伸向社会的政治、经济、文化、军事和社会生活的各个方面。尤其在军事上,网络的发展改变了传统的战争
多频稳态诱发反应(Multiple Frequency Auditory Steady-State Response,ASSR)是近年来才发展起来的一种新的客观听力检测技术,具有客观性,频率特异性好,最大输出强度高,不受
近年来,无线传感器网络凭借自身的诸多优点已被广泛应用于军事国防、环境监测等多个领域。而节点定位技术是其能够在实际中得到应用的前提和基础。目前,根据不同的应用需求,各种
定性仿真在处理不完备知识以及推理、决策等方面的独到长处,使得其越来越受到人们的重视,并且逐步应用到机械制造、医学研究、生态环境、人类社会与经济学等领域,在系统监测、故