格式化文件内容提取与过滤关键技术研究

被引量 : 0次 | 上传用户:MAOMAO1002333141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络成为信息和文件传输的方便途径,不良信息和非法文件的增多,网络传输中文件内容过滤成为保障网络信息安全传输的有效方法。文件内容过滤包含两个部分:内容提取与内容过滤。传统的内容提取方法的问题在于只能在文件传输完成后才能够提取格式化文件的正文内容,因此无法满足传输过程中实时提取需求,例如,无法在传输过程中对已传输的部分文档内容进行提取。传统的内容过滤使用多模式匹配算法,无法满足复杂匹配规则的处理需求,因为单个关键词表达的语义过于简单,常需要关键词组合用于一个匹配规则以获得更精确的匹配结果。因此为了高效精确的实现网络传输中文件内容过滤,本文在研究国内外文件内容提取与内容过滤算法基础上,进行了如下创新工作:首先,本文分别研究Office2007文档与PDF文件特有的文件格式,分析其文档结构,提出在网络传输中内容实时提取方法。实时提取依靠分片解压算法从对网络传输的部分文件内容进行解压缩,对解压出的内容结果进行特征匹配,提取正文内容。整个提取过程需要分片解压、分片缓存、特征查找和正文提取四个技术方案的支持。其次针对布尔表达式匹配问题,在研究基于区间覆盖的布尔表达式匹配算法基础之上,因区间算法原匹配算法需要先进行一次排序,然后遍历得到结果,其中有很多区间可不处理,所以提出对匹配算法的优化,去除不必要检查的区间,提高原匹配算法的匹配性能;同时针对原算法处理具有前缀特征的表达式集合效率低下的问题,原标记算法将相同关键词当成不同关键词处理,存在重复查找与处理现象,因此通过修改原标记算法,使出现于前缀中的关键词尽量复用原有区间,减少查找所需处理的区间数量,提高了原算法的处理速度以及减少空间消耗。
其他文献
土地是人类赖以生存的场所,是农业生产的基本资料,也是工业、交通、城市建设和旅游等不可或缺的物质条件,是农业生产最主要的不可替代的生产资料,土地质量的好坏直接影响到农
为人民谋福利的思想是毛泽东思想中蕴含的极其重要的一个方面,他有着丰富的科学内涵。努力为人民谋福利,对加快中国社会主义现代化建设、构建社会主义和谐社会、建设社会主义
本文主要研究了黄河滩枣的酿酒特性,探讨了红枣酒酿制过程中的主要影响因素,确定了红枣酒最佳发酵条件,建立红枣酒的发酵动力学模型,分析红枣酒的特征风味物质。对黄河滩枣中含有
教育评价的理论既是教育评价改革的基础,也为我们指出了教育评价发展的方向。改革和完善现行教育评价,关系到师范教育的优化,对师范院校的人才培养起着关键性的作用。
本文来源于国家863计划项目“海洋潮流能发电技术示范系统研究”,目的是提出准确可信的垂直轴水轮机设计分析方法来预测水轮机的性能,并设计水轮机的结构型式。因此,本文的主要
液压电梯在我们的日常生活和工业生产中占有很大的比例,但是由于液压电梯的能量损失大、传动效率低等缺陷已严重影响与同类低损耗产品(交流电梯、直流电梯等)在市场上的竞争力,因
近年来,公务员考试持续升温,成百上千人争夺一个职位的情况屡见不鲜,多数报考者认为公务员工作轻松、稳定以及良好的社会评价是吸引他们报考公务员的主要原因。但随着公务员
以"神舟八号"搭载的苜蓿种子为材料,经过筛选获得高株、多分枝等变异材料,利用HPLC、MSAP等方法对紫花苜蓿DNA甲基化状况进行了研究。结果表明,与地面对照相比,空间搭载苜蓿
海报作为信息传递、文化交流的载体,以它独特的艺术表现形式吸引人们的注意,起到宣传的作用,而城市形象宣传海报不仅能体现出城市的文化特色,展示城市的整体形象,而且能够促