论文部分内容阅读
网络的开放性和日益增长的规模,使其成为人们自由交流信息的便捷手段。但同时这种开放性也使网络中存在着很大的负面效应,如各种迷信、色情、暴力、反动和其他非法信息的传播,或者内部网中机密信息的泄漏等,这些都已成为了人们日益关注的焦点问题。而传统的过滤技术,如基于关键字,或基于IP地址的过滤等,现已不能很有效地解决这些问题。在这种需求下,本文针对基于支持向量机的文本内容分析过滤技术进行了研究,对网络信息内容进行安全分析,达到对网络信息的安全过滤;在对目前的Web内容分析方法做了初步的研究后,提出了一种基于KKT条件改进的反馈学习机制支持向量机文本内容分类过滤算法。首先,根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征对支持向量机进行训练,再使用支持向量机对待测文本进行分析并分类过滤,最后通过对一部分数据的反馈学习不断提高支持向量机的分类准确度。经对来自网站的主题网页的初步测试,文中所提出的算法能够较好地实现对网页中不良网页的分类过滤功能,获得了对特定信息安全过滤的较好效果。