基于纹理特征的多文种文档图像文种识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:chenhuiww060606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,在数字化大环境中,越来越多的资源以文本图像的形式保存。在全球化的进程中,国家之间交流日益频繁,在海量的信息处理过程中,光学字符识别技术(Optical Character Recognition,OCR)得到广泛应用。文种识别技术是OCR前端处理步骤,同样也是文本图像分析的一个重要环节,已经成为一个研究热点。文种识别的研究从1990年开始至今,已经取得不少具有重要价值的成果,大部分研究的数据库都只包含部分地区的文字,数据量少,不能确定适用于更多的文种。鉴于文种识别方法存在的一些问题,本文建立了多文种文档图像数据库,文种的选取包含全球通用文种、中亚文种和国内少数民族文字,具有普遍适用性。本文针对多文种文档图像的文种识别技术进行了相关研究。针对不同语言文字的构造特征、笔画书写特征、空间分布等存在一系列差异,在文档图像中所表现的就是不同的纹理特征,本文提出了基于离散曲波变换的文种识别方法和基于HOG特征的多文种文档图像文种识别方法。为提高单一纹理特征的文种查全率,提出了基于曲波变换纹理特征融合的文种识别方法。本文所做的主要工作如下:1.简述了文种识别领域的研究发展,总结了该方向取得的突出性研究成果,分析了多文种文档图像文种识别技术研究需要突破的难点。2.创建一个标准的实验数据库。分辨率为200dpi,图像尺寸为256×256,数据库包含中文、俄文、英文、土耳其文、哈萨克斯坦文、藏文、维吾尔文、吉尔吉斯斯坦文和蒙古文9个文种。每个文种各有1000幅图像。3.鉴于我们建立的数据库,扫描的书刊有些纸张软薄,会有另一面的影印。选取加权平均法灰度化、中值滤波去噪和全局阈值二值化对文档进行预处理,从而达到提取特征前的二值化图像的背景一样和降噪的目的。4.提出了一种基于离散曲波变换的多文种文档图像文种识别方法。利用文档图像经过曲波变换后得到的系数提取能量特征,组成特征向量。采用Bayes、LDA和SVM三种分类器进行特征训练和分类。实验结果证明该方法优于传统的文种识别方法,如基于小波变换、二元复数小波变换、LBP等文种识别方法。5.提出了一种基于HOG特征的文种识别方法。计算和统计文档图像每一个区域的梯度方向直方图组成特征向量,采用不同的分类器进行特征训练和分类,与经典方法的对比实验结果证明,该方法特征提取时间短,且能准确地提取文档图像的纹理特征,有效提高文种查全率。6.提出了一种曲波变换纹理特征融合的多文种文档图像文种识别方法。利用曲波变换后的cell矩阵中的低频和高频系数,提取纹理特征,并融合图像统计特征,组成特征向量,采用不同的分类器进行特征训练和分类。实验结果证明该方法能有效地提取文档图像的纹理特征,提高文种识别效率。
其他文献
近年来无线通信系统发展快速,作为通信系统关键设备之一,功率放大器对数据传输速度和频谱资源提出了更高的要求,还要不断满足更多的需求,如宽带、高效率和线性度等指标。连续型功率放大器的提出极大地改善了功放的带宽和效率,给设计宽带高效率功放提供了一种理论方法。同时,遗传算法的引入,给设计匹配电路带了便利。本文设计研究了三种宽带高效率功放设计如下:一、介绍了阻性混合连续逆模理论,针对带宽与谐波阻抗之间的矛盾
成骨细胞的骨形成功能和破骨细胞的骨吸收功能构成了骨重塑结构,其平衡过程是骨稳态的重要因素。然而,这种平衡可能会因为骨内稳态失衡而受到破坏,了解骨骼中葡萄糖代谢的作
近年来,近场测量已成为高性能天线研制中非常重要的技术手段,其中高精度是天线近场系统中的关键指标,这使得近场控制技术显得尤为重要.早期的近场控制借助于成熟的经典控制技
营销力是在企业人力资源、技术体系、管理体系、信息系统和企业价值观的基础上,并在企业家的创造和企业生存和发展的双重内在动力下、市场竞争的推动和消费者需求的拉动的双
目的:探讨葫芦素B (CUB)联合奥沙利铂(OXA)对人结肠癌SW480细胞增殖及凋亡的影响,并阐明其作用机制。方法:将SW480细胞分为对照组,10、20和40μmol·L^-1 CUB组,OXA组(10
传统的人事选拔是以胜任力或者说是人-职匹配为基础的,即强调基于胜任力,但研究者和实践者们越来越多的强调人-组织匹配在人事选拔中的重要性,即强调人事选拔过程中招募者匹
以长角血蜱疫苗候选抗原为例,从长角血蜱蛋白水解酶、蜱生殖和发育相关分子及RNA干扰技术、IgG结合蛋白技术几方面概述了近年来国内外有关蜱疫苗的研究现状,并展望了蜱疫苗的
目的 :探讨分析在手术室护理管理中进行人性化管理的方法与效果。方法 :随机选取近年来我院手术室的护理人员作为研究对象。其中,在2012年3月至2013年3月间,对手术室的护理人
当前大学生在人的价值实现方面出现了精神价值模糊化、生命价值危机化、价值主体自我化、价值取向功利化的问题,高校思想政治教育要确立社会价值与自我价值融合的原则,灌输兼
高维特征数据包含大量的无关信息和冗余信息,这些信息可能会极大降低学习算法的效率。对于加速机器学习算法,提升学习模型泛化能力和避免维数灾难的影响,特征选择算法在很多