基于一类SVM的网络不良信息过滤算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:A251321741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得通过网络传输的文件监控和过滤成为一个热门课题。这些文件中可能包含了不良信息。网络流量中的信息包含着各种网络协议,可能被分片,编码。机器无法直接识别其中的需要监控的内容。而对于内容过滤,使用传统的基于字符串匹配的算法显然无法满足呈几何爆炸级别的信息增长的监管需求。虽然使用SVM确实可以提高分类效率,但依然存在维数过大,导致存储资源和计算能力浪费的现象。本文首先分析如何在众多网络协议中,根据协议本身的特点和协议状态机,对协议中包含的传输内容进行自动识别匹配,然后对数据流部分进行重组还原,并且进行必要的解码操作,以获得需要过滤的文本信息。本文重点研究了主流的应用层HTTP协议,FTP协议,SMTP协议和POP3协议,以及主流的私有应用飞信协议,QQ协议和MSN协议。然后本文提出了一种针对如何有效减少SVM的维数的改进算法,提出通过使用三种特征简约对向量机的维数进行约束。这种算法的改进达到加快运算速度,节省存储空间、提高准确率的作用。实验表明在选用相同数量的特征词的前提下,基于文档频率,基于信息增益和开方拟合算法取舍向量机的特征值各有优缺点。在仅仅选取500个特征值的情况下,改进算法使得不良信息分类和过滤的正确率达到了80%以上。在选取超过1000个特征值的情况下,DF算法的正确率超过了90%。
其他文献
目的:为了能够更加深入的了解病人在就诊过程中对开设的多种门诊形式的需求,为优化三甲医院门诊就医流程和综合利用门诊医疗资源提供重要的依据。结果:当病人并不了解自身病情和
在遥感技术飞速发展的今天,遥感影像也随之在军事观察、公共安全、交通控制、自然灾害防治、地理研究、海洋监测、农业估产、林业规划等各重要领域得到了大量的应用。在实际的
目的:供应室是集中处理大量被病原微生物污染的医疗用品的部门,供应室工作人员长期与致病原,锐器、化学消毒液接触,在工作中经常使用多种电器及压力容器,加上工作环境的噪音、潮湿
嵌入式系统设计已成为现代电子设计的一大领域和方向.该课题的目的是建立一个完整的基于ARM核心微处理器的开发平台,为嵌入式系统开发提供一个完整的硬件环境.在广泛了解和择
目的:护理部和专业学组采取情景模拟考核,抽签决定考核模拟场景,主要考核护士的应变能力、流程的掌握程度和急救配合能力及危重护理记录书写能力等。理论和实践相结合,考核分值大
在过去的十多年中,盲信号处理获得了飞速的发展,并在通信信号处理、语音信号处理、生物医学信号处理及图象处理等领域获得了广泛的应用.盲信号处理是指在没有系统与环境的先
目的:了解医疗机构血液透析室环境卫生和消毒质量,加强血液透析医院感染管理的过程。方法通过现场采样和细菌检验技术,对一些医疗机构血液透析室取样和测试。医疗机构血液透析室
目的:了解南充市阙家镇居民对婚前体检现状的认知,行为和态度情况。方法:采用自制问卷,随机抽取南充市阙家镇629位居民进行问卷填写及访谈。结果:本次调查共回收有效问卷610份,调查
目的:了解抑郁症患者总体幸福感与生活事件和社会支持的关系,有针对性地开展护理。方法采用问卷调查法,对2013年1月-2014年11月住在我院心理科的172例抑郁症患者进行调查。结果
数字高清晰度电视(Digital HDTV)是当今世界上最先进的图象压缩编码技术和数字通信技术的结合,是当今世界高技术竞争的焦点之一。数字视频广播(DVB)是欧洲170多个组织共同开发