论文部分内容阅读
互联网的高速发展使得通过网络传输的文件监控和过滤成为一个热门课题。这些文件中可能包含了不良信息。网络流量中的信息包含着各种网络协议,可能被分片,编码。机器无法直接识别其中的需要监控的内容。而对于内容过滤,使用传统的基于字符串匹配的算法显然无法满足呈几何爆炸级别的信息增长的监管需求。虽然使用SVM确实可以提高分类效率,但依然存在维数过大,导致存储资源和计算能力浪费的现象。本文首先分析如何在众多网络协议中,根据协议本身的特点和协议状态机,对协议中包含的传输内容进行自动识别匹配,然后对数据流部分进行重组还原,并且进行必要的解码操作,以获得需要过滤的文本信息。本文重点研究了主流的应用层HTTP协议,FTP协议,SMTP协议和POP3协议,以及主流的私有应用飞信协议,QQ协议和MSN协议。然后本文提出了一种针对如何有效减少SVM的维数的改进算法,提出通过使用三种特征简约对向量机的维数进行约束。这种算法的改进达到加快运算速度,节省存储空间、提高准确率的作用。实验表明在选用相同数量的特征词的前提下,基于文档频率,基于信息增益和开方拟合算法取舍向量机的特征值各有优缺点。在仅仅选取500个特征值的情况下,改进算法使得不良信息分类和过滤的正确率达到了80%以上。在选取超过1000个特征值的情况下,DF算法的正确率超过了90%。