硬件查找算法在内容过滤中的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:kkkdddz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内容过滤是对网络内容进行监控,防止某些特定内容的信息在网络上进行传输的技术,一种能够有效识别垃圾文本信息的过滤方法具有重要的经济价值和社会价值。随着网络带宽的提高,软件内容过滤在大流量网络中不能及时地对数据包进行检测,因此基于硬件设计的内容过滤系统因其高效、可靠、安全性强等优点成为研究重点。然而制约硬件内容过滤速度的重要环节就是查找。本文从当前常用的基于硬件的查找算法入手,针对内容过滤的特点,研究有效的大规模特征词查找算法,设计并实现基于FPGA的内容过滤系统,实现对用户数据包的实时分类检测。   全文主要进行了如下工作:   1)讨论当前较常见的查找算法:RAM查找、CAM查找、并行比较器、Aho-Corasick算法以及Bloom Filter算法。了解不同查找算法的主要思想以及改进方法等,同时介绍以上常见算法的具体应用实例和实现方法。了解这些算法的核心思想,为硬件内容过滤中的查找模块提供算法和框架支持。   2)了解内容过滤的基本概念,以及基本实现框架,采用基于统计的贝叶斯算法进行具体分析。在最小风险分类算法基础上,提出双重阈值的基于最小风险贝叶斯文本分类算法,目的是提高系统的可控性,减小单一风险系数对召回率(Recall Rate)的影响。   3)进一步优化双阈值最小风险贝叶斯算法,使其适合硬件语言设计,便于移植到FPGA中实现。讨论硬件文本分类系统中三次查找操作的需求,在同一系统中采用不同的查找实现方式,并分析大规模特征词的查找操作存在的难点,为后续的算法设计打下基础。   4)解决大规模特征词查找的问题,首先分析汉字在数据包传输中的编码格式,并根据需求提出了一种并行的基于RAM的Counter Bloom Filter的查找结构,并解决了原有CBF算法中仅有匹配信号输出的问题,改进了CBF的寄存器组,满足了贝叶斯分类计算模块的功能需求。   5)对提出的改进算法进行性能分析,并使用FPGA实现内容过滤系统。搭建整体系统框架,设计了内容过滤系统的基本功能模块,介绍了过滤系统的硬件基本单元,最后对整体系统设定测试方案,分析测试结果。   测试表明,本论文提出的大规模汉字特征词查找算法资源利用率较高,改进的CBF算法比原算法的虚警率更低,从而减少了误判的可能性。本论文所设计的内容过滤系统能够满足对用户的会话数据包进行实时处理的需求。该方案将网络数据包分类、过滤等网络内容安全方面有广泛的应用。
其他文献
机器视觉检测技术一般是指利用图像采集设备获取被检测物体的图像并与预先设定的标准对比从而判断被检测物体的质量状况的技术,具有检测速度快、准确率高、操作简单等优点。
纤维增强复合材料由于其优异的力学性能被广泛应用于航空航天及各个民用领域,但在其生产及服役过程中难免会产生裂纹、分层等缺陷,对系统稳定及安全性能造成影响。空气耦合超声
数字水印技术是信息隐藏技术的重要分支之一,它是研究如何在不破坏数字载体使用价值的前提下进行水印信息的嵌入,同时不被察觉。数字水印技术因其鲁棒性、不可见性等特点,已
由于业务产生的随机性与突发性,LTE系统各小区间必然会存在负载不均衡现象:在高负载小区中,资源竞争激烈,难以满足用户的QoS需求;而在空闲小区中,无线资源又没有得到充分利用。因
图像分割是从给定图像中获取到感兴趣的目标或区域的过程,是图像处理和图像分析的重要步骤,同时也是一个比较有挑战的难题。目前图像分割技术已被广泛应用于计算机视觉,图像
搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略
射频识别技术(RFID),是从20世纪80年代发展起来的一项自动识别技术,是无线电技术在自动识别领域中的具体运用。近年来,RFID技术的研究和应用在世界范围内得到了快速发展。RFI
本论文中,首先对无线通信信道特征做了简单的介绍,在分析讨论了多用户MIMO-OFDM信道估计模型的基础上,提出一种己知部分信道状态信息估计出新加入用户信号的多用户检测方法。
20世纪80年代,在不确定性问题的研究方面,人们将概率论、统计论和图论结合,从而发展起来一门新的学科——贝叶斯网络(Bayesian Networks)。由于贝叶斯网络使用形象而清晰的图
在网络通信领域中,运营商们通过提高各自传输网络的综合承载能力来满足更多用户对众多数据业务的传输需求;广大用户也加深了对高网络服务质量的需求,高可用性已经成为当今网