基于一类SVM的网络不良信息过滤算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：A251321741

【摘要】

：

互联网的高速发展使得通过网络传输的文件监控和过滤成为一个热门课题。这些文件中可能包含了不良信息。网络流量中的信息包含着各种网络协议，可能被分片，编码。机器无法直接识

【作者】

：

丁霄云

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2014年期

【关键词】

：

SVM 特征简约网络协议数据重组分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的高速发展使得通过网络传输的文件监控和过滤成为一个热门课题。这些文件中可能包含了不良信息。网络流量中的信息包含着各种网络协议，可能被分片，编码。机器无法直接识别其中的需要监控的内容。而对于内容过滤，使用传统的基于字符串匹配的算法显然无法满足呈几何爆炸级别的信息增长的监管需求。虽然使用SVM确实可以提高分类效率，但依然存在维数过大，导致存储资源和计算能力浪费的现象。本文首先分析如何在众多网络协议中，根据协议本身的特点和协议状态机，对协议中包含的传输内容进行自动识别匹配，然后对数据流部分进行重组还原，并且进行必要的解码操作，以获得需要过滤的文本信息。本文重点研究了主流的应用层HTTP协议，FTP协议，SMTP协议和POP3协议，以及主流的私有应用飞信协议，QQ协议和MSN协议。然后本文提出了一种针对如何有效减少SVM的维数的改进算法，提出通过使用三种特征简约对向量机的维数进行约束。这种算法的改进达到加快运算速度，节省存储空间、提高准确率的作用。实验表明在选用相同数量的特征词的前提下，基于文档频率，基于信息增益和开方拟合算法取舍向量机的特征值各有优缺点。在仅仅选取500个特征值的情况下，改进算法使得不良信息分类和过滤的正确率达到了80%以上。在选取超过1000个特征值的情况下，DF算法的正确率超过了90%。

其他文献

基于学习的亚像元定方法的研究

在遥感技术飞速发展的今天，遥感影像也随之在军事观察、公共安全、交通控制、自然灾害防治、地理研究、海洋监测、农业估产、林业规划等各重要领域得到了大量的应用。在实际的

学位

亚像元定位软硬属性转换图像自相似性空间自相关性多偏移图像遥感影像

基于ARM核心的嵌入式系统硬件平台的研究

嵌入式系统设计已成为现代电子设计的一大领域和方向.该课题的目的是建立一个完整的基于ARM核心微处理器的开发平台,为嵌入式系统开发提供一个完整的硬件环境.在广泛了解和择

学位

嵌入式系统ARM电子设计硬件平台

CMA算法及在MIMO系统盲均衡中的应用

在过去的十多年中,盲信号处理获得了飞速的发展,并在通信信号处理、语音信号处理、生物医学信号处理及图象处理等领域获得了广泛的应用.盲信号处理是指在没有系统与环境的先

学位

盲均衡常模量算法(CMA)MIMO系统

DVB-C接收机的算法研究

数字高清晰度电视(Digital HDTV)是当今世界上最先进的图象压缩编码技术和数字通信技术的结合，是当今世界高技术竞争的焦点之一。数字视频广播(DVB)是欧洲170多个组织共同开发

学位

DVB-C盲均衡算法算法结构载波恢复定时恢复数字视频广播时域均衡器自动增益控制地面广播滤波器系数

基于一类SVM的网络不良信息过滤算法研究

其他学术论文