红头文件检测关键技术研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:ydlwxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无纸化办公的推广和计算机技术的进步,越来越多包含重要信息的文件在网络中传播,一些纸质材料通过拍照、扫描等途径转存为电子文档,方便阅读和存储。技术的进步在带来便利的同时,给不宜广泛传播、包含私密信息的资料(如合同、红头文件等重要文档)带来了巨大的安全隐患,一些不当操作会导致重要信息无意间通过电子文档泄漏到网络环境中。当前广泛使用的红头文件检测方法一般是预先在重要文件中加入隐藏且不易损坏的电子水印,检测过程中对加入的信息进行提取和匹配。这种方式需要提前处理,在用户无意间造成的泄露中并不实用。一些基于文本相似度的文件检测方法的核心是段落之间的比较和语义的识别,需要预设的关键信息较多,计算量大、耗费时间长,满足不了日益增长的数据处理速度需求。本文针对网络传输数据包中的文本类红头文件及图片类红头文件,设计了一个具有普适性的适用于网络数据包中关键特征检测的系统,检测的目标是文件中的特定关键字和红头文件的关键特征。本文主要工作概括如下:(1)在文本类文件检测方面,采用多模式匹配算法缩短在文本中搜索关键字的时间。常用于字符串搜索的多模式匹配应用到中英文混合环境中会有空间膨胀、单字词误匹配的问题。为此本文在详尽分析常见编码方式的基础上,结合组合状态自动机(DFSA-QS)算法和线索完全哈希字典树匹配机(THT)算法的优点,提出了一种适用于多种编码方式的中英文混合文本多模式匹配算法。该算法实现了从小段数据中判定出编码方式,并且利用对比常用汉字表对搜索出的单字符匹配结果进行筛选,删除误匹配结果。实验结果表明本文算法能有效地在中英文环境中快速搜索关键字,且不会产生误匹配。(2)在图片类文件检测方面,主要解决的问题是通过图像预处理提高光学字符识别(OCR)的识别率。通过对OCR的测试了解其输入图片的需求,设计了针对性的图像预处理步骤。使用累积概率霍夫变换检测红头文件中的红色分割线,得出倾斜角度,使用霍夫圆变换定位出印章区域,对原图进行裁剪,必要时使用透视变换修正图像。运用结合边界信息的自适应阈值二值化算法消除光照不均对图像的影响。通过训练OCR的字库将红色五角星等特征识别成关键字,增加检测结果的可信度。实验结果显示能有效地检测出亮度不均、倾斜等环境中包含指定关键特征的红头文件。实验结果表明,本文提出的红头文件检测系统能有效地检测出包含关键字的文本类文件,耗时比常见的多模式匹配算法低,且不会产生单字词误匹配的情况,必要时可以还原出原始汉字内容以供查看;图片类文件检测系统能有效检测关键字和关键特征,处理大小为1024*768的图片平均耗时1.3s,满足实际应用需求。
其他文献
近代上海开埠后,作为“肉食者”的西方人士涌入并开始聚集、常住于租界,由于对自身饮食习惯的坚持,对牛肉的大量需求随之而来。传统中国肉类供应有限,尤其禁宰耕牛,这便与西方人士的需求相冲突。围绕来沪西方人士牛肉需求和本土供应这一问题,华洋两边多方在上海展开了交锋与互动,西方文化与传统中国文化在此碰撞,西方行政管理制度与中国本土管理传统相互适应、借鉴,中国商人与西方消费者在此沟通交易,中西方民众、消费者也
绩效考核是提高员工工作效率的重要手段,在税务部门实施科学有效的绩效考核对于提高税务人员的办税质量和工作效率具有重要意义。随着金税三期工程在贵州的成功部署,贵州省地
随着计算机学科的技术研究更加深入,涌现出虚拟现实(VR)、增强现实(AR)等新技术,除了给人们提供了一种新的思维方式以外,也很好的提升了人们的生活品质,渐渐的这些信息化手段
人脸检测是模式识别和计算机视觉等领域的重要组成部分,也是人脸对齐、人脸识别、表情识别等人脸课题的研究前提。传统的人脸检测算法中,通常利用手工设计的特征提取算法进行
医学影像成像技术不断发展与完善,为医疗诊断提供大量可靠的单模态医学诊断图像。但是,这些图像都有其反映的侧重点,是针对组织器官的某一特征的,其所呈现的信息是局部、片面
烟草是以叶片为收获对象的经济作物,苗期受低温胁迫后易开花提前,造成未长够叶片即开花的早花现象,给烟农造成巨大的经济损失。明确低温诱导烟草早花的分子机理是解决烟草早
大豆[Glycine max(L.)]是我国重要的粮食和油料作物。应用基因工程方法改造大豆性状,是当前培育大豆新品种的重要方向;同时,转基因大豆的种植也将引起公众对其生态安全的忧虑。
本研究通过实证研究方法提出并检验管理者的管理职能能力和社会网络能力对企业绩效的影响效应假设。本研究定义管理者的社会网络能力为管理者能在多大程度上培养与政府官员的
现如今行人识别技术在智能监控、车辆辅助驾驶系统、智能交通等领域有着重要的商业价值和应用前景。然而,行人的姿态、运动、场景遮挡以及光照变化等因素都会对行人识别的准
本文以茉莉酸甲酯(Methyl jasmonic acid,简称MJ)、水杨酸(salicylic acid,简称SA)、内生真菌培养液(fungal endophyte culture supernatant,简称FE)为诱导子,在培养不同阶段