光学符号识别

来源 :科学与财富 | 被引量 : 0次 | 上传用户:panok123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 本文针对光学符号识别问题,对数据进性分类统计处理,建立欧几里得相似度模型,ROC模型评判法对模型进行检验,同一坐标对应若干个字符,所以考虑坐标所对应的数字是坐标域,分析不同位置统一字母的数据存在可能性差异,同一字符在同一位置区域的数据具有较高的相似性,筛选同一区域的若干字符,再通过其余特征属性建立模型可以识别相关字符。接着观察待测字符的数字信息中的位置信息,找到与待测字符相同的位置区域,建立欧几里得相似度模型,将筛选出的属性与待测字符的相应属性的数据通过欧几里得相似度计算公式进行计算,得到多组欧几里得距离(距离越小,相似度越高),选择不同的阈值,计算低于阈值的字符频数,最终选择频数最大的字符作为识别结果。
  关键词:欧几里得距离 ;相似度;ROC模型误差检验
  [abstract]Problem based on optical character recognition, the data into classification statistical processing, Euclidean similarity model is set up, the ROC model test evaluation method on the model, the same coordinates corresponding to several characters, so consider the coordinates of the figures are coordinates domain, analysis unified data possible differences, different position data of the same characters in the same location area has high similarity, screening of several of the characters of the same area again through the rest of the attributes set up model can identify the related characters. Then watch for the character of digital information, location information in finding and characters of the same location area under test, Euclidean similarity model is set up, will select attributes and characters of the corresponding property of the under test data by Euclidean similarity calculation formula to calculate, get more groups of Euclidean distance (the smaller the distance, the higher the similarity), choose a different threshold, the calculation of characters is lower than the threshold frequency, frequency of maximum character is chosen as the final recognition result.
  [Key words]:  euclidean distance  similarity  ROC model error test
  一、问题分析及模型建立
  1.1 问题分析
  通过分析字符的特征属性知,字符所在矩形区域的水平竖直位置和高宽度是描述字符所在位置和大小的,其余则是表述字符本身具体形状的特征属性,用于识别字符。将属性分为两类,位置属性和特征属性。
  观察每一个字母的若干数据,再按照水平位置和竖直位置分类,发现同一类字符在不同位置区域的伪属性值存在可能性差异,同一类字符在同一未知区域的伪属性值具有高度相似性;在检测字符时,可以考虑先从位置坐标出发,先寻找坐标相同或者相近的区域,再进行识别。
  1.2对属性进行分类
  字符所在矩形区域的水平位置和竖直位置与其矩形区域的高度和宽度是确定字符所在位置和大小的属性。矩形区域的黑色像素数等属性表示字符本身的具体形状,用于识别字符。
  表示字符所在矩形位置大小的特征属性有四个,表示字符矩形区域的特征属性的有12个。相关数据表面发现这些数据都具有几乎相同的属性域________________。
  字符的特征属性:
  i.从识别字符本身形状出发,考虑后面12个属性区域,求出每个字符的不同属性在每个属性值区域(0-15之间)的频数,通过计算每一幅图伪属性值的极差,判断波动差别比较大的属性。本文还选择提取每一个字母的平均伪属性值,绘制平均伪属性值图像,观察不同字符平均伪属性值的走势也具有一定辨识度,两种方法结合选择出最具有辨识度的属性。
  ii.计算出12幅图的极差(12个极差),在第一种方式中选择极差大的前10个属性,作为暂时确定的恰当的特征。再計算第二种方法的12幅图的极差(12个极差),选择前10个极差大的属性,作为第二种方法暂时的恰当特征属性。
  1.3 模型建立
  1.3.1 基本思路
  对于识别字符而言,首先进行数据预处理,然后对图片进行分割。对图像数据进行训练和识别,本文选取每个区域内任意70%的数据进行识别字符,剩余30%数据进行检验。
  1.3.2欧几里得相似度距离公式
  其中一个区域为例子做解释说明,假设选择剩下百分之三十的数据的其中一个数据,先观察该数据的位置信息,提取同区域字符,在进行相似度计算,在同区域中寻找最好的相似度对应的字符作为最终识别字符。
  二、结果及结果分析
  ii. 将计算出来的所有数值进行比较,在小于该阈值的范围中频数最多的字母,得到的字母即为识别结果。计算得到的预测正确率为92.3%。
  三、模型的改进与推广
  3.1 模型评价
  3.1.1 模型的优点
  1、先将图像进行分区,计算不同特征属性的不同字母的最大频数下的为属性值和平均伪属性值,使得模型的可视化界面形象逼真。
  2、欧几里得算法计算方便,分区后结合实际分析,使得模型更贴近实际,通用性好,推广性强。
  3、筛选出的70%的训练数据和30%检验数具有随机性,可以较好反映数据信息。
  3.1.2 模型的缺点
  1、影响精确度的因素较多,不能全面考虑,结果与实际有一定偏差。
  2、光学数据集在收集过程中由于其他未考虑因素导致识别准确,例如,仪器误差,环境因素等,结果又偏差。
  3.2 模型优化
  对每个属性根据其重要性赋予权重,加权之后的欧几里得距离可以表示为:
  对于识别字符,各个属性对精确度的影响程度可用层次分析法和熵权法进行量化,算出的欧几里得距离更具有实际意义,能够反映各个变量在数据中的不同作用,从而使模型到达优化的目的。
  参考文献:
  [1] 卢畅畅,宁少文,唐德昌.光学字符识别技术(OCR)的研究于应用[J].中国战略新兴产业,2018(28):1-3.
  [2] 肖坚.基于学习的OCR字符识别[J].计算机时代,2018(07):48-51.
  [3] 田学东. 光学公式识别技术研究[D].河北大学,2007.
其他文献
摘 要:油井生产过程中,随着产出量的累计,产能的降低,在开发后期低产低液井越来越多,合理油井生产参数来节能降耗,保护油井生产产能显得至关重要,本文就某油田在合理生产参数取得效果进行分析及推广。  关键词:生产参数;能耗;机采效率  1.概述  某油田經过长期开采,已经进入高含水阶段,在地层压力低,没有产能接替、措施效果变差,低产高含水井增多等等不利因素的影响下,摸索适合该油田的生产参数,应用各种措
期刊
摘 要:众所周知,在进行水环境的监测的时候,水和废水的采样质量对环境监测的数据有着非常直接的影响,因此在采样的过程当中,需要不断降低误差,这样才可以准确的对环境进行监测。本文将对水和废水的现场采样的影响因素进行相关的探索和解析,并且在此基础上还提出了几点控制水和废水现场采样的相关措施,以此来提高水和废水现场采样的采样质量,进而确保水环境监测工作的顺利进行。  关键词:环境监测;水和废水;现场采样;
期刊
摘 要:现代社会中,经济社会不断发展。港口起重机获得了极大的推广和应用,而支撑它的基础就是钢结构,如何保证其施工质量,成为了大家研究的重点。本论文的主要内容就是探究集装箱轨道式起重机的钢结构制作过程的质量控制。  关键词:钢结构;工程施工;质量控制;方法措施;质量监管  钢结构工程的优点就在于它自身有着非常好的结构性能,用于施工时速度较快,所以各个行业几乎都在运用这种结构,特别是在港口起重机中。下
期刊
摘 要:工民建中的民用住宅、办公楼(梁、板、拄、基础),水工建筑中的厂房(基础、梁、板、柱)等工程建筑物的结构安全和防渗等绝大多数由混凝土和钢筋混凝土承担,因此混凝土的质量在工程建筑物中显得尤其重要。混凝土施工的工艺水平、施工队伍的素质、原材料的质量等因素给混凝土施工的质量控制带来一定困难。本文就如何搞好混凝土的质量控制进行探讨。  关键词:水工建筑;混凝土;质量控制与对策  控制好混凝土工程的施
期刊
摘 要:本文对近年来军事物流领域的专家学者对军事物流运输、军事物流效益评价的相关文献进行了搜集整理;总结出了常见的对军事物流运输效益评价的理论方法;对模糊综合评价法、层次分析法、BP神经网络法、平衡计分卡和数据包络法等五种评价方法进行了简要介绍,并列表对比分析了五种方法的优缺点,其中使用最经常的是模糊综合评价法。  关键词:军事运输,评价方法,综述  0 引言  广义的军事运输是指军队运用各种运输
期刊
摘 要:我国的城镇化发展已进入以城市群发展为标志的新型城镇化阶段,城市群发展将有利于优化城镇化空间布局和形态,对于促进我国城镇化健康发展、发挥城镇化对我国经济社会发展推动作用方面具有积极意义。城市群发展需要新型城市基础设施建设(“新基建”)作为支撑,广大城市建设者们要深入了解新型城镇化发展对城市基础设施的新需求,规划好、建设好和管理好城市基础设施,为城镇化高质量发展打下坚实的基础。  关键词:城镇
期刊
摘 要:随着我国经济的快速发展,越来越多的企业意识到人力资源管理在企业发挥的重要作用,而人力资源外包则是提高专业度的渠道之一。虽然目前我国的人力资源外包服务仍处在相对初级的发展阶段,但随着越来越多的外资企业入驻以及第三方外包企业本身专业度的提高,必将给我国的人力资源外包行业注入新鲜的血液,并迎来新的发展高潮。  关键词:人力资源;外包服务;新趋势;降低成本;核心竞争力;发展前景广阔  近几年来随着
期刊
摘 要:P2P网络借贷是全球互联网金融的重要构成,是目前最常用的网络借贷平台类型。P2P网络借贷平台,具有借贷体系成熟,交易方式效率高多变等特点,但在中国P2P网路借贷还处在萌芽阶段,仍冉存在许多不安定的因素,为此,深入分析了国情,了解了P2P网络惜货平台的发展历程和主要特点,并在此探讨出了P2P网络借贷存在的风险和隐患,最后根据问题给出了相应的政策建议。  关键词:P2P网络借贷平台;效率;风险
期刊
摘 要:改革开放以来,随着经济的快速发展,电视广告也得到了繁荣的发展,而男权文化长久以来成为了社会的主导文化思想,电视广告中男性形象不可避免的打了男权文化的印记,存在这刻板单一的现象。而传统电视广告中表现的两性关系也存在这不平等的现象。到了21世纪,经济更加蓬勃的发展,社会思想文化呈现出多元化的去向,而电视广告中的男性形象也发生了变化,这种变化有良性的影响力,两性关系朝向了健康的方向发展着。  关
期刊
摘 要:本文深入研究了燃气轮机燃烧室在国内专利申请中的发展路线,重点分析中国专利申请趋势、申请主体分布、国内申请人排名以及中国区域专利国省分布,以期能够为国内从事燃烧轮机燃烧室相关研究的企业和科研单位提供重要参考。  关键词:燃气轮机;燃烧室;专利态势分析  1. 引言  燃气轮机的研发制造水平代表了一个国家的重工业水平[1]。通常燃气轮机的三大组成部件分别为压气机、燃烧室和涡轮,其中燃烧室是燃气
期刊