论文部分内容阅读
针对目前网络上存在的大量不良信息传播的状况,本文提出并实现了一种在电信主干光纤通讯电缆上进行过滤网络信息的引擎。网络信息过滤引擎通过构造相关分类知识库,利用智能信息处理技术(自然语言处理),在理解网页内容(而不是仅仅匹配关键词)、获取文本意义的基础上,对网页进行自动分类,利用分类结果,可以截获网络敏感信息,并采取相应的控制、过滤措施。为了在高速网络环境中过滤网络信息,还设计实现了高性能的数据包捕获和应用层协议分析的功能。整个过滤引擎涉及了自然语言处理技术(主要是分词理论和文本分类技术)、高速网络处理技术(协议分析和零拷贝技术)等关键技术。本文针对电信级智能网络信息过滤引擎的研究设计实现过程中遇到的问题和解决办法等方面来讨论相关技术和理论的研究和应用。 本文完成的主要工作如下: (1) 通过引入自然语言理解理论,提出基于URL分类知识库的URL智能分类库。凭借URL智能分类库,把耗时的实时网络内容的分析过滤转化为URL的分类预处理,使高速网络环境下的网络信息监控成为可能。 (2) 零拷贝技术的引入突破了传统数据包捕获技术慢的瓶颈,提升的性能不仅为千兆网络信息过滤打好基础,还使得低配置的硬件设备也有可能被用于高速网络环境的处理,节省了进行网络信息过滤的费用。 (3) 应用层协议分析功能的设计。该功能模块对网络信息进行应用层级的语意理解,从而实现基于应用层的内容过滤,而不只是对网络数据包进行简单的特征匹配来决定过滤与否。