论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,垃圾邮件不仅给网民,企业和服务提供商带来巨大的经济损失而且也造成资源的大量浪费。
随着机器学习方法在文本分类领域的成功,将其应用到基于内容的垃圾邮件过滤成为垃圾邮件过滤的研究热点。
本文以提高邮件过滤性能为目标,分析比较了语料的多种预处理方式、分类方法的参数选择对朴素贝叶斯、PG贝叶斯分类方法过滤性能(特别是中文邮件过滤)的影响;在垃圾邮件过滤实时性要求的前提下,提出了多分类器组合策略:按照分类性能和处理代价对分类器进行组合设计,并对结果进行验证。
为提高中文邮件过滤的性能,本文提出了一种中文特征聚类方法SAC用于垃圾邮件过滤。SAC中考虑了字词之间的顺序,将文档看作句子“串”的集合,用聚类产生的簇为单位代表语料库中特征的分类知识。实验表明,该方法应用于过滤器可显著提高中文邮件过滤性能。
本文设计并初步实现了垃圾邮件过滤系统PKU-AntiSpam。PKU-AntiSpam以内容过滤方法为核心,综合使用多种过滤技术。系统可以针对用户反馈进行自适应过滤,满足垃圾邮件动态变化和个人过滤标准可定制的需要。