基于深度学习移动端中文文本识别

来源 :山东大学 | 被引量 : 0次 | 上传用户:caibo782
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,拍摄设备的日渐普及,图片的采集途径也变得简单,图像中包含大量信息,数据传输存储的方式由过去的文本格式逐渐向转图像、视频等新型媒体格式转换,图像中的信息通过像素的方式展示,用户理解更加直观,而对于计算机而言,去理解图像中所包含的内容有着重要的意义,图像中出现文本内容具有高度的标识性,与图像所示内容具有强关联度,文本信息包含的高层语义信息对于图像的理解有重要作用。人工智能算法的发展,需要大量数据进行支撑,尤其是深度学习逐渐成为主流方法,有监督的学习算法依靠数据特征处理后提供机器进行训练。在日常生活中,大量的文本内容遍布各个角落,如菜单、传单、广告牌都利用文本方式向用户提供信息,通过计算机视觉方法将图像转换为机器能够理解的文本信息后,可以对其进行进一步加工如翻译、信息统计,以获取图像中深层的信息,对图像的高效利用提供了更多思路。对于文本数据进行标注成为了算法研究前需要解决的重要问题,由于文本出现的场景多样化,需要实现多种方式的文本识别,搭建了移动端基于深度学习的文本识别系统。本文针对文本定位和识别以及移动端系统搭建分别进行相关的研究,具体工作如下:1.自然场景中文本定位,结合目标检测的相关知识,研究了端到端的目标检测算法以及R-CNN系列算法,本文利用YOLO-v3结构设计了一种文本定位算法,并与CTPN算法进行比较实验,结果证明其在定位准确度上若于后者,但在运算时间上占有绝对优势。2.对于文本识别任务,分析了结合RNN结构的CRNN文本识别算法,该算法通过使用RNN提取上下文特征,可以较好地完成文本识别工作,通过模型的训练和实验,证明CRNN网络可以完成对于中文文本识别任务。3.结合文本定位及文本识别两个部分,本文设计并实现了一个文本标注工具,可通过人工修正手段调整标注内容,大大提高数据集标注效率。
其他文献
树覆盖问题是一个基本的组合优化问题,在电话机房、网络机房及发电厂等规划方面有着重大的研究价值。树覆盖问题主要包括四类,包括最小最大树覆盖问题、有根的最小最大树覆盖问题、有界树覆盖问题和有根的有界树覆盖问题。对树覆盖问题的研究,不只是对问题本身关联的实际有促进作用,对其他相似的问题而言也有重要的研究价值,例如圈覆盖问题、车辆寻路问题、路径覆盖问题和集合覆盖问题等。本文中主要研究的树覆盖问题是最小最大
基于人体骨架序列的动作识别是人工智能应用范畴中一个热门且非常具备应用性的研究问题。目前,该问题在视频监管、体感游戏、病人监护、无人安防、人机互动、机器作业等领域有着大量的应用。随着人体骨架数据获取设备及动作捕获传感器的发展,传感器可以有效地获得动态人体骨架序列。因此,迫切须要设计一个能够充分且合理利用人体骨架序列的动作识别算法。人体骨架序列充分表示了人体信息的时空特征表示,但初始的人体骨架序列往往
在如核电运行维护、大飞机生产制造等工业领域中,存在大量操作流程复杂、工作强度大、灵活性要求高、难以实现机械化与自动化的工作任务,执行这些任务只能依靠人为操作。在作业执行过程中,作业人员的工作效率与人身安全难以保证。因此,能够与人协同运动,实现部分作业任务自动化的外肢体辅助机器人成为解决上述问题的新型技术手段。外肢体辅助机器人是一个多工况、多任务空间的高维系统,针对该系统的多任务运动规划与控制方法是
当今时代,随着计算机软件技术的飞速发展,人们越来越依赖于各种计算机软件来方便的处理事务,各种各样的软件也是不断地推陈出新。在软件开发过程中,开发人员经常会重复使用大量第三方库函数。对于逆向分析工作来说,准确地识别在软件中复用的库函数具有重要意义,例如检测已知漏洞、对恶意软件进行反向分析等。如果能够使用自动化的方法有效标记出各种复用的库函数,就可以显著提高软件逆向分析的效率,减轻逆向分析人员负担,并
当今社会,随着互联网的迅速发展,来自互联网、工业生产、企业内部的数据成为了一项重要资产,迸发出巨大的商业价值,而企业需要掌控这些数据来赢得机遇、抢占商机。因此,它们迫切需要运用大数据分析技术挖掘其背后的规律并加以利用,从而为企业提供更有价值的信息,以便在市场竞争中夺得先机。同时,企业对数据分析应用的多样性需求,为数据分析平台的快速开发、重构与即时运维技术带来了巨大挑战,需要针对不同数据分析的应用层
基于卷积神经网络(CNNs)的多任务学习方法在计算机视觉的各种应用中取得了显著的成功,是目前重点关注的研究方向之一。多任务卷积神经网络是在单任务模型结构保持不变的情况下,学习多个任务的共享表示,该共享表示适用于不同但相关任务的训练目标,使多任务模型更具有泛化能力。随之各任务分支拟合各自输出,从而完成多个任务的联合预测,并取得整体性能的提升。对于有效的多任务卷积神经网络方法,最近的研究均是通过自动学
为满足空间大轨道转移任务要求,基于电推进系统液氪低温推进剂在轨长期贮存的应用需求,从低温推进剂贮箱壳体材料、贮箱热防护技术、微重力环境下贮箱内气液分离和流体管理等四方面入手,聚焦于国内外相关研究进展,总结了关键技术的发展现状,结合氪工质贮存要求进行了分析,旨在为电推进系统液氪贮箱设计提供参考。
根据单张图像估计深度信息是计算机视觉领域的经典问题,也是一项具有挑战的难题。在传统的计算机视觉中,由于单目图像的尺度不确定性,导致根据单目图像无法计算深度值,仅能通过双目图像计算出稀疏深度值。目前,基于深度学习技术的单目深度估计方法成为了研究热点。基于监督学习的单目深度估计方法通常需要依赖大量的真实深度标签用于模型训练,然而获取真实深度的成本是非常高昂的。基于无监督学习的单目深度估计通常根据双目图
图像分辨率越高通常意味着图像拥有更多的细节,更高的清晰度以及更好的视觉感受。高分辨率的医学图像有助于医生的诊断;高分辨率的监控图像有利于犯罪行为的识别和追踪;高分辨率的视频可以带来良好的观影体验。但是图像的分辨率往往受到设备精度、环境、信息传输效率等因素的制约。如何在这些因素的制约下获得高分辨率图像有着重要的意义。这类通过模糊的低分辨率图像恢复高分辨率图像的算法统称为图像超分辨率算法,其难点在于图
头部姿态估计(确定人体头部相对于摄像机视图的方向)的研究在计算机视觉领域是一项长期的研究课题,头部姿态估计在视线估计、注意力建模、三维模型与视频的拟合、人脸定位等方面有着广泛的应用。在过去的二十年中,头部姿态的研究推动了三维重建的视觉技术以及多媒体内容操作的发展,在与用户交互方面发挥了重要作用。它广泛应用于注意力检测模型,司机行驶监控,课堂智能管理与人脸识别等领域。本文研究的主要问题是对于头部姿态