复杂场景下矩阵图码识读增强关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cxzafasaasassadf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图码技术是计算机与信息技术相结合的一门新兴技术,其把编码、印刷、识别、数据采集和处理集成于一体。从20世纪70年代开始,已广泛应用在各个领域。随着现代信息技术发展,一维图码容量不足的问题限制了其应用发展,为了在图码中存储更多的信息,二维图码被研制出来,例如鼎九码、Data Matrix、QR Code、PDF417等,其存储密度是一维图码的几十到几百倍,他们共同特点是信息在水平和垂直方向上扩展,存储在矩形平面内。本文把分布在矩形平面内,具有明确信息的图形称为矩阵图码。与一维图码相比,矩阵图码信息密度较高,识读困难,尤其在光照、噪声、模糊、畸变等复杂场景下,识读更加复杂。为了提高矩阵图码识读的准确率和速度,识读之前需要对图码做增强处理,包括边缘检测、图像增强与二值化等技术。矩阵图码识读增强技术也可以应用在文字、以及由文字组成的文档图像上。本文认为文字和文档图像也是一种特殊的矩阵图码。本文主要研究复杂场景下矩阵图码的识读增强技术,研究内容和创新点如下:1.二维码是比较简单的矩阵图码,在其识读过程中,受到外部光源以及传感器影响,采集的图像出现光线不均匀、噪点多等现象,二维码识读需要根据像素的黑白阈值确认信息,如果图像的噪点很多,影响图码识读的准确性。本文提出基于方差图两次二值化算法,对噪点有很强的抑制能力,以鼎九码为例进行实验验证,很好解决了复杂场景下图码的识读问题。2.在复杂场景下,由于畸变以及噪声干扰,手机拍照文档图像中的文档区域边界可能是不连续的曲线,常规的边缘检测或霍夫变换算法不能很好解决文档图像的边缘检测问题。本文提出动态规划边缘检测算法以及边界组合算法,有效解决了复杂场景下文档图像的边界检测问题。3.手机拍照文档图像,由于畸变、模糊等因素,大小相同字体在不同文档图像中出现不同形状,传统模板匹配和基于人工特征的文字识别方法识别准确率较低,本文提出一种新的基于卷积神经网络文字识别模型,很好的解决了手机拍照文档的文字识别问题。对于场景文字识别,提出了新的场景文本识别模型TRDD,该模型由纯卷积网络组成,与传统的序列文本识别模型相比,网络的训练和预测速度上有很大的提高。4.图像的目标检测中,如果目标太小或者存在多目标的情况,基于HOG,DPM传统目标检测方法,准确率较低。本文提出了基于深度学习的目标检测算法,提高了小目标和多目标的矩阵图码位置检测精度。提出新的场景文本检测模型,提高了场景文本检测速度和准确率。针对复杂场景下图码识读增强问题,本文对二维码的二值化,文档图像的边界检测和增强,手机拍照文档图像以及场景文本检测、识别,提出了相关的图像识读增强算法以及深度学习网络模型,并通过实验证明了算法和模型的有效性,其中有些算法已经应用于实际工程项目和相关产品中。
其他文献
目的:通过网络药理学方法预测和探讨益气活血方抗肝纤维化的活性成分及其潜在的作用机制.方法:采用中药系统药理学数据库和分析平台(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP)、中医药综合数据库(Traditional Chinese Medicine Integrated Database,TCMID)筛选出益气活血方的活性成分和相关的潜在靶点;利用GeneCards数据库检索肝纤
目的:评价药师参与家庭医生团队为高血压患者提供药学服务干预的效果,为探索合适的社区药学服务模式提供依据.方法:本研究以上海市崇明区长兴镇已经签约家庭医生的高血压患者为研究对象,采用随机对照的研究方法将其分成干预组和对照组.干预组在家庭医生服务的基础上,有药师参与并实施为期12个月的个体化药学服务干预;对照组无药师参与家庭医生服务.收集两组患者的血压、生化指标和高血压相关知识知晓率等数据,比较并分析两组患者的差异,评估社区药学服务干预在高血压用药管理中的效果.结果:干预组平均血压从基线时的(150.84±1
目的:分析多粘菌素B致皮肤色素沉着药品不良反应(ADRs)的临床特点及可能的发生机制.方法:系统检索PubMed、EmBase、Cochrane Library、中国期刊全文数据库(中国知网,CNKI)、万方数据-数字化期刊群中关于多粘菌素B致皮肤色素沉着ADRs的个案报道,结合作者在工作中观察到的病例,进行汇总分析.结果:检索到14篇个案报道(涉及18例患者),加上作者在工作中观察到的1例病例,共19例患者,其中男性12例(63.2%),女性4例(21.1%),性别未知3例(15.8%).老年患者(≥6
行人再识别技术是智能监控系统中重要的组成部分,其目的是在非重叠的摄像机采集区域,识别特定的行人身份,现已成为计算机视觉领域一项热门研究课题。本文在国内外研究的基础上,结合对特定场景和方法的理解,以提高行人特征的表示能力和判决能力为切入点,对传统方法中字典学习方法在行人再识别的应用进行了深入研究,随着深度学习方法在行人再识别领域的广泛应用,后期工作也对基于深度学习的再识别方法进行了初步探索。本文的主
Ga2O3,一种超宽带隙(Eg~4.9 eV)透明氧化物半导体材料,具有高击穿场强、耐高温、抗辐射性强、化学稳定性好等特性,在微纳光电子领域有很好的应用前景。Ga2O3可用来制备光电探测器、紫外滤光片、场效应晶体管、光电倍增管、信息存储器、气敏传感器、可见光LED、紫外LED、太阳能电池、荧光发光器等器件;可用于净化水源、分解污染物、制备环保能源H2等光催化领域;同时在透明导电电极、光学窗口、紫外