垃圾短信过滤中字特征与词特征对过滤效果的比较研究

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
十多年来,短信服务在世界各国电信市场中得到巨大的发展。而手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信。词特征数量多,维数大,需要进行特征选择,否则会严重影响过滤效果。在中文文本中,中文分词是提取词特征必不可少的工作,中文分词算法复杂,计算量大,需要耗费大量的计算资源。这些缺陷意味着在使用词特征时需要较好的硬件设备和较多的处理时间。而在垃圾短信过滤的实际应用中,这些条件常常无法满足。针对词特征的缺陷,本实验使用字特征来代替词特征。字特征维数有限,无需分词的特点可以有效地节约计算资源,减少计算量,缩短处理时间,解决词特征在垃圾短信过滤中存在的应用问题。本实验使用柏努利贝叶斯、多项式贝叶斯、径向基支持向量机、C4.5决策树四种分类器,几率比、信息增益、互信息三种特征选择方法,500维、1000维、1500维、2000维、全维度五种维度的空间,通过不同分类器、特征选择方法、维度空间的交叉使用,共构建了52种不同的过滤条件,分别使用字特征和词特征得到过滤的正确率,共52对对比结果。对比结果显示,在C4.5决策树、低维度的柏努利贝叶斯和低维度的互信息选出的特征空间等三种条件下,字特征的过滤效果都要优于词特征;在其它条件下,字特征的过滤效果与词特征差距也不大。分析结果可知,在硬件设备和处理时间有限的条件下,使用字特征和柏努利贝叶斯或C4.5决策树搭配进行垃圾短信过滤可以得到非常不错的过滤效果。
其他文献
伴随着现代工业科技的快速发展,工业对测量精度要求越来越高,视觉测量技术在工业生产中有重要地位。它具有速度快、精度高、非接触、自动化程度高等优势,该技术近年来在非接
在语音信号的检测过程中,被测语音信号通常比较微弱,很容易被噪声干扰和淹没,导致提取纯净的语音信号的工作很难进行。语音增强技术是解决这个问题的关键技术之一,为了消除噪
学位