【摘 要】
:
碎纸自动拼接是指将已经粉碎后的纸条进行扫描,并存储为数字图像的形式。之后,通过图像处理技术得到碎纸的外形、颜色等信息,然后提取特征,通过碎纸间的特征匹配,寻找最优的
论文部分内容阅读
碎纸自动拼接是指将已经粉碎后的纸条进行扫描,并存储为数字图像的形式。之后,通过图像处理技术得到碎纸的外形、颜色等信息,然后提取特征,通过碎纸间的特征匹配,寻找最优的匹配纸条,利用计算机以及相关技术进行全自动或者半自动复原文件。 根据粉碎的方式不同分为人工碎纸和机器碎纸,人工碎纸也就是手撕纸,它的特点是外形各异,因而可以通过提取纸片的外部轮廓进行匹配拼接;碎纸机碎纸也就是条形碎纸,它的特点是纸条间的外形相似,很难利用外形特征进行匹配。对于文档类的条形碎纸,由于没有丰富的颜色信息及碎纸过程中信息的丢失,使得寻找可靠性高的特征成为难点。本文研究16k保密等级为Leve3的文档类条形碎纸拼接,鉴于上述特点,本文提出了基于文本内容的碎纸拼接方法,以及基于碎纸纸条上的文字布局关系的拼接算法。 针对汉字文档的条形碎纸,利用汉字的笔画特征,采用左侧待纸条的的最右列数据与右侧待拼接纸条的最左列数据的相似性作为判据进行拼接处理;考虑到碎纸过程中带来的对左右两列数据的一定程度的破坏,利用汉字横笔画丰富的特点,又提出了根据横笔画匹配的方法。 由于汉字结构的特殊性,这两种方法无法达到理想的准确率。为此,本文又提出了一种基于碎纸纸条上的文字布局关系的拼接算法。经过对大量碎纸条中字布局的统计,发现字布局的类型有空字、字在纸条两边、满字、字在纸条中偏右、字在纸条中偏左五种。纸条间对应字布局组合有25种,对数十张纸中的近七万多个正确拼接的字块统计出各组合出现的概率,根据拼接方向不同得到从左向右拼和从右向左拼的条件概率矩阵。以最大匹配概率为准则,进行拼接。并将不同拼接方向得到的不同的拼接序列内容进行对比,对错误匹配进行校正。得到最终的拼接结果。 实验表明,本文提出的拼接方法所提取的特征鲁棒性强,受边沿信息丢失、纸条微小形变的影响较小,尤其在字布局类型判断正确的情况下,拼接正确率高。
其他文献
在全球化经济飞速发展的今天,供应链系统的结构、环境都变得愈发复杂。虽然在国际化的市场和研究领域中对供应链风险管理的研究已逐渐形成比较成熟的体系,但是供应链仍无法完全
永磁同步电动机(permanent magnet synchronous motors, PMSM)具有体积小、噪声低、效率高、功率密度大等优点,随着电力电子技术和现代控制理论的迅速发展,PMSM得到了广泛的应用。直接转矩控制(direct torque control, DTC)以其控制结构简洁、转矩动态响应快、对电机参数依赖少等特点,已成为学术界研究的热点。本文在传统DTC理论的基础上,结合空
图像的分类与识别是人工智能领域和计算机视觉领域中一个重要的研究课题,现阶段国内外关于图像分类与识别的研究正蓬勃发展,其中应用广泛的领域有:人脸检测、场景识别、光学字符
随着医疗信息化的快速发展,药房自动化设备的研究与发展也如火如荼。但是针对中国人口多、药品发放量大、中药特殊包装存储的医药行情,国外的机械手自动化药房、储药槽式自动
DALI(Digital Addressable Lighting Interface,数字可寻址照明接口)作为照明行业的主流协议,凭借其简捷方便的控制方式、专业细致的照明效果等优点,在照明控制领域取得了广泛的应
自电力电子器件的广泛运用以来,电网的谐波污染日益严重,对高效的谐波治理技术的需求十分迫切。电力系统中存在大量突变谐波电流、零序谐波电流和高次谐波电流,这些电流进入电网
模型预测控制(Model Predictive Control, MPC)和迭代学习控制(Iterative Learning Control, ILC)是工业过程中广泛采用的控制与优化方法。文章首先分析了MPC和ILC的发展历程
三相异步电动机有着运行稳定可靠、易于维护、构造简单等优良性能,在工矿业生产和生活中占主要地位。然而异步电动机在直接启动过程中存在着启动电流大,启动转矩小的缺点,这些缺陷不仅限制了它的应用范围,也带来了电网电压降低、影响其他设备的正常工作等问题。解决这一问题的常用方法是使用软启动器,它可以调节大中型异步电动机的启动电压和电流,减轻危害程度。软启动器控制策略有很多种,但归根结底都离不开对异步电动机内部
基于核函数的方法是从统计学习理论中发展而来的非线性机器学习研究方法。很多线性的方法,例如特征抽取、相关性理论、分类及回归等,都可基于核化理论推广为非线性方法。“核技