论文部分内容阅读
随着互联网的迅猛发展,网络成为信息和文件传输的方便途径,不良信息和非法文件的增多,网络传输中文件内容过滤成为保障网络信息安全传输的有效方法。文件内容过滤包含两个部分:内容提取与内容过滤。传统的内容提取方法的问题在于只能在文件传输完成后才能够提取格式化文件的正文内容,因此无法满足传输过程中实时提取需求,例如,无法在传输过程中对已传输的部分文档内容进行提取。传统的内容过滤使用多模式匹配算法,无法满足复杂匹配规则的处理需求,因为单个关键词表达的语义过于简单,常需要关键词组合用于一个匹配规则以获得更精确的匹配结果。因此为了高效精确的实现网络传输中文件内容过滤,本文在研究国内外文件内容提取与内容过滤算法基础上,进行了如下创新工作:首先,本文分别研究Office2007文档与PDF文件特有的文件格式,分析其文档结构,提出在网络传输中内容实时提取方法。实时提取依靠分片解压算法从对网络传输的部分文件内容进行解压缩,对解压出的内容结果进行特征匹配,提取正文内容。整个提取过程需要分片解压、分片缓存、特征查找和正文提取四个技术方案的支持。其次针对布尔表达式匹配问题,在研究基于区间覆盖的布尔表达式匹配算法基础之上,因区间算法原匹配算法需要先进行一次排序,然后遍历得到结果,其中有很多区间可不处理,所以提出对匹配算法的优化,去除不必要检查的区间,提高原匹配算法的匹配性能;同时针对原算法处理具有前缀特征的表达式集合效率低下的问题,原标记算法将相同关键词当成不同关键词处理,存在重复查找与处理现象,因此通过修改原标记算法,使出现于前缀中的关键词尽量复用原有区间,减少查找所需处理的区间数量,提高了原算法的处理速度以及减少空间消耗。