论文部分内容阅读
随着无纸化办公的推广和计算机技术的进步,越来越多包含重要信息的文件在网络中传播,一些纸质材料通过拍照、扫描等途径转存为电子文档,方便阅读和存储。技术的进步在带来便利的同时,给不宜广泛传播、包含私密信息的资料(如合同、红头文件等重要文档)带来了巨大的安全隐患,一些不当操作会导致重要信息无意间通过电子文档泄漏到网络环境中。当前广泛使用的红头文件检测方法一般是预先在重要文件中加入隐藏且不易损坏的电子水印,检测过程中对加入的信息进行提取和匹配。这种方式需要提前处理,在用户无意间造成的泄露中并不实用。一些基于文本相似度的文件检测方法的核心是段落之间的比较和语义的识别,需要预设的关键信息较多,计算量大、耗费时间长,满足不了日益增长的数据处理速度需求。本文针对网络传输数据包中的文本类红头文件及图片类红头文件,设计了一个具有普适性的适用于网络数据包中关键特征检测的系统,检测的目标是文件中的特定关键字和红头文件的关键特征。本文主要工作概括如下:(1)在文本类文件检测方面,采用多模式匹配算法缩短在文本中搜索关键字的时间。常用于字符串搜索的多模式匹配应用到中英文混合环境中会有空间膨胀、单字词误匹配的问题。为此本文在详尽分析常见编码方式的基础上,结合组合状态自动机(DFSA-QS)算法和线索完全哈希字典树匹配机(THT)算法的优点,提出了一种适用于多种编码方式的中英文混合文本多模式匹配算法。该算法实现了从小段数据中判定出编码方式,并且利用对比常用汉字表对搜索出的单字符匹配结果进行筛选,删除误匹配结果。实验结果表明本文算法能有效地在中英文环境中快速搜索关键字,且不会产生误匹配。(2)在图片类文件检测方面,主要解决的问题是通过图像预处理提高光学字符识别(OCR)的识别率。通过对OCR的测试了解其输入图片的需求,设计了针对性的图像预处理步骤。使用累积概率霍夫变换检测红头文件中的红色分割线,得出倾斜角度,使用霍夫圆变换定位出印章区域,对原图进行裁剪,必要时使用透视变换修正图像。运用结合边界信息的自适应阈值二值化算法消除光照不均对图像的影响。通过训练OCR的字库将红色五角星等特征识别成关键字,增加检测结果的可信度。实验结果显示能有效地检测出亮度不均、倾斜等环境中包含指定关键特征的红头文件。实验结果表明,本文提出的红头文件检测系统能有效地检测出包含关键字的文本类文件,耗时比常见的多模式匹配算法低,且不会产生单字词误匹配的情况,必要时可以还原出原始汉字内容以供查看;图片类文件检测系统能有效检测关键字和关键特征,处理大小为1024*768的图片平均耗时1.3s,满足实际应用需求。