基于深度学习的自然场景文本检测算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:sunku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为语言信息存在于人们生活的方方面面,根据拍摄的场景图像,获取其中的文字信息有助于人们对自然场景的理解、描述和分析,具有重要的社会价值和意义。然而自然场景的复杂,场景中文字的多样,给文本检测的准确性带来了极大的挑战。传统机器学习方法的逐步处理,导致了错误的累积和性能上的瓶颈。而近年来深度学习的发展,为文本检测的研究带来了一大曙光。基于以上背景知识的研究,本文重点分析研究了基于深度学习的自然场景文本检测算法。本研究内容包括:(1)小尺度文本在经过深度网络处理后,其特征信息会变得更模糊,针对这一问题,我们设计了一种用于文本检测的多尺度粗检测子,它融合了深度网络中浅层和深层信息、局部和全局信息,在像素级别上对原始图像的每个像素进行分类,获取能体现文本信息的显著性模板图。粗检测子适用于检测小尺度的文本。(2)现有的基于深度学习的文本检测方法未考虑检测对象的相互关系,检测得到的文本包围框有冗余,针对此类问题,我们提出了一种以字符或字符部分为基本对象的细检测网络,用融合上下文信息的细条形anchor的形式来检测一系列字符序列。在光照等干扰下,细检测子仍能检测出完整的文本。(3)针对现有的方法对文本检测存在的定位不精确、多种尺度文本混合难以检测等问题,我们提出了一种级联式的卷积神经网络,设计了中间处理机制,结合粗检测子和细检测子的优势,以由粗到细的方式,更加精确地定位出每一行文本位置。通过分析、研究与实验,我们的算法在精细定位挤压式文本行,检测小尺度的文本和检测有部分干扰的文本方面,有较强的鲁棒性、泛化能力和抗干扰能力。
其他文献
随着民爆产品供求关系的历史性变化,民爆企业进入买方市场,企业间围绕市场份额的争夺更加激烈.为了生存发展,企业领导必须注重买方市场下经营战略研究,审时度势,谋攻善战,变
一、会计信息失真的博弈论分析博弈论研究的是博弈各方(决策主体)之间发生直接相互作用时的对策、选择及其均衡问题,换句话说它主要研究理性个人之间的相互冲突(对抗、竞争)与
本论文根据固体表面的润湿理论,在不锈钢网基底上分别采用两种方法构筑了超疏水超亲油表面,研究了其疏水亲油机理并探究了其在油水分离中的应用。主要研究工作如下:1.采用化
二三维一体的、基于互联网的多源历史空间数据展示平台目前并不完善,如何实现一个能通过Web端浏览访问的、展示多源历史空间信息的平台是主要目标。论文就其设计出发,对其中
对影响深井泵使用性能和寿命的因素进行了分析,并重点介绍了对深井泵的检测方法,可供参考。
作为一项燃烧效率和传热系数较高、燃烧强度较强、污染物排放量较小,并且机构简单的燃烧方式,脉动燃烧在当今能源形式下具有很好的发展空间。脉动燃烧器具有诸多优点的原因就
为了解决我国煤炭成本管理中存在的实际问题,提高成本管理水平,已有学者把先进的作业成本法原理与煤炭开采特点相结合,为煤炭企业研究开发出一种新的成本管理模式和方法--煤
随着社会经济的发展,以人为本,不断营造安静、舒适、文明的生活环境,是未来人居环境的发展趋势。本文介绍了吸声材料的种类、应用及广阔的发展前景。
简述GC型与DG型单吸多级分段式离心泵的性能及结构特点,比较其实际使用情况,指出各自的长处与不足。
本文将基于笔者实践经验,对建筑外墙外保温的优势进行论述,并对建筑外墙外保温施工技术进行分析,并且探讨其施工质量管理措施,以供广大同行参考与借鉴。