论文部分内容阅读
现实世界中,知识不仅以传统数据库的结构化数据的形式出现,更多的也以报刊、新闻、书籍、研究论文、web页面及电子邮件等多种纷繁复杂的形式出现。据统计,在目前人类所接触的信息世界中,属于非结构化或半结构化1的文本数据占整个信息量的80%左右,且以指数级的速度迅速增长。然而对这些非(半)结构化的数据,原有数据挖掘技术无法进行有效的数据挖掘。在此背景下,文本挖掘技术应运而生。文本挖掘技术是以半结构或非结构的自然语言文本为对象的数据挖掘技术,它是从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律的过程。文本挖掘技术应用广泛,文本分类是其重要应用之一。现代互联网飞速发展的时期,垃圾邮件问题日益严重,成为广大网民感到头疼的一件事情。将文本分类技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰,减少垃圾信息等具有重大的现实意义。本文从介绍文本挖掘流程开始,主要介绍了文本挖掘的重要应用——文本分类在垃圾邮件过滤中的应用。详细阐述了贝叶斯、K最近邻、logitboost、支持向量机等分类算法的原理和方法。并针对KNN分类算法忽略特征之间关系的缺陷,提出基于向量聚合的改进KNN分类算法,然后基于同一数据平台,运用文本分类的一些评价指标,略加改进,评价各种过滤算法的优劣。通过比较发现,运用SVM分类算法的效果最好,略加改进的朴素贝叶斯算法在准确度、召回度等方面均优于经典KNN算法,且受阈值影响不大,效果较为稳定。KNN分类算法随着K值的增大,准确度不断降低,且下降幅度较大。基于向量聚合的改进KNN算法对上述缺陷进行了修正,且通过试验证明确实在分类效果上有很大提高。为了不断优化,选择最好的参数,文中选择使用网格搜索法优化参数,在过滤准确度方面体现其优势。