贝叶斯分类在垃圾短信过滤中的应用

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:BruceLee_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动通讯技术的快速发展和手机用户人数的持续增长,手机短信因为具有随时收发、价格低廉和便于人们传达信息等优点,已经成为人们日常生活中进行信息交流的重要方式。不法分子利用短信的价格低廉,易于群发等特点,对用户发送大量垃圾短信,严重影响人们的日常生活,其中诈骗类短信还对人们的财产安全造成威胁,因此垃圾短信过滤技术亟待完善。现在的垃圾短信过滤技术主要有:黑白名单过滤、关键词过滤和基于内容的过滤。然而这种单一功能的过滤技术的过滤能力比较有限,很多垃圾短信都过滤不了。因此本文构建了一种包含黑白名单、关键词和内容智能过滤等功能的垃圾短信过滤系统。在文本分类方面朴素贝叶斯分类有一个很关键的条件,就是待分类文本的各个属性特征是相互独立的,然而这一条件在有些场合并不能被满足。朴素贝叶斯在短信分类方面查全率较低,容易把正常短信归为垃圾短信,与人们的实际期望不符。针对上面两个问题,本文采用了一种改进的贝叶斯分类算法,它运用改进的类条件概率估计值法和改进的判别函数来解决相互独立和查全率低的问题。对两种分类算法进行了实验对比,结果表明改进的贝叶斯查全率和综合性能要优于朴素贝叶斯。随着垃圾短信过滤系统的研究与发展,不法分子也想出了种种手段,通过变换短信内容,企图躲避过滤系统的拦截。对短信内容的变换包括:添加干扰符,繁体字替换,拆分字替换,谐音字替换等。这些层出不穷的手段给垃圾短信过滤系统带来巨大挑战。本文对这些变换问题进行了研究,并给出了解决方法。本文的主要工作包括:1.分析比较不同文本分类算法的优缺点,根据手机短信分类的特点选择贝叶斯分类算法作为本文的研究方法;2.解决了垃圾短信的变换问题,如:繁体字替换、谐音替换、拆分字替换、干扰符号等等;3.对五种特征提取方法进行比较,采用一种综合词频和互信息优点的特征提取方法,并与互信息特征提取方法进行了实验比较;4.参考现有的垃圾短信过滤技术,融合黑白名单过滤、关键词过滤和基于内容的过滤,构建了一种基于改进贝叶斯分类算法的垃圾短信过滤系统,并对其性能进行实验分析。
其他文献
图像监控系统是一门集计算机技术、通信技术和多媒体技术于一体的综合系统。它以直观、方便、信息内容丰富等特性而被广泛地应用于工业生产、交通、电信、电力等场所。随着嵌
学位
随着语义网的发展,一些基于本体的应用也越来越受关注。而本体映射技术对于本体推理查询、本体集成等都是至关重要的一部分,本文将着重对此进行研究。首先,论文简单介绍了课
图像分割是图像处理与计算机视觉中的关键步骤,也是研究的重点与难点。无论要在图像中识别目标,或者提取其他的信息,首先要做的一步就是图像分割。图像分割可以理解为将图像
针对H.264基于率失真优化算法的模式选择的高复杂度,本文从帧内帧间两方面着手改进算法:在帧内模式选择时,本文采用基于纹理和时空域的多精度快速算法:引入两个指标来指导4×
工作流技术是实现企业业务过程建模、业务过程仿真分析、业务过程优化、业务过程管理与集成,从而最终实现业务过程自动化的核心技术。早期的工作流应用系统都是集中式的,即由一
物流在现代社会中起着很重要的作用,为了实现高效物流管理,必须做到物流企业间信息流的快速畅通。各物流企业信息化建设程度和方式的差异,导致各信息系统间的数据交换产生诸
H.264是目前流行的视频压缩编码国际标准,基于H.264的运动估计研究一直是视频压缩中研究的热点。与以往的标准如MPEG-1/2/4及H.261/H.263相比,H.264的编码效率有了大幅度的提
近年来,本体在信息检索和语义网等领域中发挥着越来越重要的作用。但是手工构造本体却是一项繁琐的工作。如何从大量中文文献中自动或半自动地获得本体,成为本体在中文环境下
无线传感器网络是由低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。网络覆盖控制是无线传感器网络研究和应用的关键性