基于图像像素分布概率的文字模糊识别与鉴别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chentao805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字生成来源鉴定是司法鉴定的重要组成部分。尤其是计算机辅助鉴别,在文字鉴定大量筛查和疑难文字鉴定中发挥着重要作用。随着计算机技术的发展,对文字生成来源的计算机辅助鉴别要求,已越来越迫切。本研究通过文字图像识别,解决与文字生成来源有关的司法鉴定问题。但目前的经典文字识别方法,难以实现这一目的。在鉴别不同打印机打印的文字时,需要用相同字进行比较。现有的文字识别方法,需要提取文字结构特征,建立特征指标,进行指标的距离和相似度计算和比较。但相同字的特征都完全相同,特征提取法对此便显得无能为力。也正因为如此,这类印刷体文字鉴别的研究罕见报道。为了建立一种文字生成来源鉴别方法,在分析国内外文字识别发展状况的基础上,吸收现有文字识别方法中,建立指标,进行指标距离和相似度判别的快速运算优点,以及Casey和Nagy的以点阵像素为对象的文字识别计算,无须提取特征,结构信息精确,可用于任何文字识别的模板匹配法的优点。采用文字图像像素分布概率,作为基本指标,建立了另一种文字识别方法。并对该方法所提出的多种分区和优化判别指标,就文字识别与鉴别进行了实验。结果显示,该方法效果很好,是可行的。最后,将这些成果,用于司法案例鉴别。鉴别结果,与案件结果一致。本研究的主要成果和创新点有: 1.基于图像像素分布概率的文字识别法将文字图像二值化后,分成若干区域,统计各区域像素数,它们与总像素的比值,即区域像素分布概率,这一分布概率含有文字的结构信息和统计信息。通过分布概率差和相似度计算,可以准确识别文字的形态。用本方法对3500汉字进行识别,识别率达99.7%以上。对汉字的宋体、楷体、黑体、行楷,仿宋体、新魏体、方正舒体和隶书8种字体各100字,进行普适性识别实验,识别率达99%以上。对文字印刷质量欠佳,轻度倾斜和字迹潦草的汉字共800个进行抗干扰识别实验,识别率也在99%以上。实验表明,图像像素分布概率是一种全息性指标。它能精确捕获不同文字的结构和形态信息,是文字识别与鉴别的基本指标,也可作为其它类型图像分析的重要指标。 2.文字图像多种分区方式及其最小距离积与最大模糊相关度判别为了获得更可靠的文字区域像素分布概率,文字图像采用多种交叉分区。多种分区方式的每组指标距离之和相乘,即距离积,不但含有全字的结构和统计的可靠信息,也含有各指标的交互作用。距离积将整字之间的差距放大几个数量级,更便于筛选。用距离积最小标准,从大量模板文字(标准字)中筛选出的少数几个字,与待识别文字的像素分布概率,计算相关系数,再用模糊综合评判,在最大隶属性原则下计算最大模糊相关度,做出最终识别。整个识别过程,计算双重优化,联系密切,逻辑严密,自成体系。它是图像像素分布概率文字识别法的关键内容。在识别纠错实验中,均能正确识别国内外著名识别软件的错识字。在多种打印和印刷文字的识别实验中,它不受生成文字的机型的影响,识别率均能达到或超过97%。 3.基于图像像素分布概率的印刷体文字生成来源鉴别印刷体文字生成来源鉴别,是通过相同文字的差别比较,鉴别生成文字的工具和机器。但是,相同的文字,特征也相同。现有的计算机文字识别方法,无能为力。本研究的文字图像像素分布概率模糊鉴别法,能够准确鉴别。鉴别的方法是,随机选若干文字图像后,与已知来源(如打印机)的相同文字进行鉴别。鉴别过程及所用指标,与识别过程基本相同。图像像素分布概率文字识别基本方法,之所以可以用于鉴别,是因为图像像素分布概率是以文字各部位的像素为基础的,各种生成文字来源的工具(如打印机),在安装字库时,可能会出现微小的改变,打印过程也会产生扰动,加上工具结构和墨料的颗粒大小,都会影响生成文字的像素变化。像素分布概率必然也随之变化。这就产生了相同的文字由于不同文字生成源而出现差别。这种像素级的微小差别,只有用像素级的测量与计算,才可以鉴别出来。用这种鉴别方法,鉴别激光打印文字的鉴别率在96%以上,鉴别喷墨打印文字的鉴别率在99%以上,鉴别印刷文字的鉴别率在95%以上。鉴别手写签名的鉴别率在93%以上。 论文最后进行了总结。对图像像素分布概率的文字识别和鉴别方法的前景作了展望。
其他文献
事件流分析处理系统是数据流管理系统后端的历史数据存储分析系统,被广泛地应用在以网络监控、金融分析、传感器网络等监控应用为代表的大规模数据密集型环境中.它需要同时满
学位
近年来,数据呈现爆炸式增长,我们已全面进入大数据时代。大数据技术也应运而生,其中的典型代表为Apache的Hadoop开源项目,这对传统文件系统带来了一定的挑战,包括BWFS、GPFS等。当
机械工业的发展和地位决定了机械制造业对高级应用型人才的需求,而高等职业学院机械专业担负着培养机械专业技术型人才的重任。高职院校机械专业的教学水平决定了所培养人才的
弹上计算机是导弹的核心部件,其性能直接影响导弹武器的整体性能,需要在系统组装前对其进行集成测试和部分测试。本课题设计了一套基于工业控制计算机PC/104总线的自动测试平台,
嵌入式系统在各行各业中得到广泛的应用,其发展速度快的惊人,而作为嵌入式系统软件核心的嵌入式操作系统更是信息产业界研究的热点。本论文主要围绕Linux作为嵌入式操作系统在
通信行业的发展、核心技术和标准的不断演进,基带芯片的研发面临巨大挑战,采用软件无线电技术的基带信号处理方案的无线通信基带芯片成为通信产业、学术界的研究热点。然而目标
如今,大规模系统如数据中心中日益增多的应用负载如搜索引擎、推荐系统等越来越表现出以数据为中心、有限的局部性等特征,而传统的计算机系统以计算为中心、多级存储的架构,需要
现场总线控制系统融合了自动控制、计算机、网络通信、自动化仪表等多项技术,代表着控制系统的发展方向。   目前,由于各种总线各有特色,加之不同总线产品厂商的利益纷争,形成
学位
未来的实时系统将具备多种能力,包括分布式处理、多媒体处理、实时控制、后台信息处理等。这类实时系统将在未来的信息社会中发挥着更为重要的作用,成为最主要的应用之一。它