论文部分内容阅读
随着计算机及通信技术的发展,信息获取变得越来越容易。Internet的兴起,使整个世界进入了信息时代。面对信息爆炸,如何不浪费时间发现对我们有用、或者有益的信息,免受无用或者有害信息的侵扰,一直是一个值得研究的课题。实际上,那些无用或者有害信息的信息量远远超过了我们所需要的信息量,给人们带来了很多不便。因此,信息过滤系统的出现也就成为了必然。目前,信息过滤使用的技术主要有基于关键字的过滤、基于过滤法则的过滤和少数的一些基于内容分析的过滤技术。本文在对国内外各种用于信息过滤方法进行分析研究、及初步评估的基础上提出了两套信息过滤的解决方案。这两套方案结合自然语言处理(NLP)技术,分别采用了基于内容分析的KNN算法和Naive Bayes 算法。本文将KNN算法应用到了非法网页过滤中,将Naive Bayes算法应用到了垃圾邮件过滤中,并根据垃圾邮件的特性对Naive Bayes 算法做了必要的改进。两套方案都基于Linux 系统进行了实施。本文采用国际上通用的相关评估方法对两套方案的实施进行了测定和评估。评估结果显示,两套方案都取得了较好的过滤效果。