基于多尺度特征融合和实例分割的自然场景图像中文本检测技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:king269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从自然场景图像中读取文本由于其广泛的应用而受到了计算机视觉领域、模式识别领域以及工业界的广泛关注。在如今的智能大数据时代,能够有效地对图像文本内容进行提取分析并信息智能化对于学术界的理论研究和工业界的技术驱动都具有深远意义,而图像文本检测是后续文本内容识别的先决条件,但由于场景图像因光照、拍摄角度、背景和文本多样性等诸多问题,目前还鲜有能适用于复杂场景图像文本检测的技术手段,因此,提高对复杂场景文本的定位和检测准确性和鲁棒性有着积极的研究意义和重要的应用价值。
  本课题的工作内容和贡献如下:
  首先,考虑到图像中不同层次的特征对于目标的类别和位置信息有着不同的凸显作用,提出一种结合残差网络(ResNet)和图像金字塔(FPN)融合图像多尺度特征的网络架构,对图像中高分辨率但语义表达能力较弱的低层次特征和抽象度更高但具有更强语义表达的高层次特征同时进行提取,并利用FPN三段连接的特殊结构对多尺度的信息进行融合,生成多层次特征图;
  其次,为了匹配不同层次特征图的比例分割蒙版,提出一种基于多边形缩小算法的文本真实值标签生成算法,生成不同比例的分割区域。在损失函数中用超参数平衡原尺寸文本分割实例和缩小的文本分割实例的影响,并设计了两种损失函数,一种是基于二进制交叉熵损失函数(BCE)的损失函数,一种是基于在线难例挖掘(OHEM)和dice系数的损失函数,并通过实验分别比较了两种损失函数对于网络模型的效果;
  最后,在后处理步骤中为了将从不同尺度分割蒙版进行文本实例的扩展,提出了基于分水岭的渐进式尺寸扩展算法,利用分水岭算法的“浸水”特性,依次访问较大的文本分割蒙版,以迭代标注式地对最小分割实例执行逐像素的连通区域扩充,直到得到最大的分割结果。
  本研究中提出的基于多尺度特征融合和实例分割的场景图像文本检测的相关技术方案,经实验验证,对于定向文本、多语言文本和弯曲文本的检测均表现出良好的鲁棒性,在ICDAR2015、ICDAR2017-MLT、CTW-1500、Total-Text数据集上的F-Score分别为82.32%、70.88%、79.1%、78.9%。
其他文献
推荐系统在各大在线服务中具有广泛的应用场景,它的作用在于基于用户的兴趣为其推荐相匹配的项目,提升用户体验的同时也为系统带来更多的收益,实现用户与系统的双赢。基于深度学习的推荐算法是一个热门的研究方向,这些方法将特征映射为低维度的隐向量,但它们无法精准的衡量隐向量之间的相似关系。推荐系统中的信息之间存在关联关系,依据这些关系可以构建出图网络。采用网络表示学习方法可以提取图中的非结构化信息,丰富特征隐
学位
Android系统占据了智能终端系统的大部分份额,吸引了恶意应用开发者,对用户构成安全威胁。现有检测方法主要判断恶意代码存在性并分析恶意家族。然而,混淆技术会改变应用特征,恶意开发者利用该技术,生成恶意应用混淆变种,可以绕过现有检测方法,显著降低检测准确性。  针对Android恶意应用混淆变种,设计和实现了一种高效且抗混淆的Android恶意应用检测系统AOMDroid。针对不同混淆技术,AOM
学位
在互联网时代,各大网站充斥着海量文本信息。问答型情感分析任务旨在从电商评论、微博动态、知乎问答等用户交互的问答对中,挖掘其情感态度。  目前问答型情感分析任务的处理方法,会将问题和回答文本切分为不同句子,对每个句子单独编码,忽略了句子之间的联系,造成了信息损失。为了解决这个问题,提出了分层循环注意力(Hierarchical Recurrent Attention, HRA)模型,在文本切分后,使
学位
动态环境下无人机的路径规划就是在复杂环境下为无人机规划出一条从出发点到目标点的最优航线,应考虑环境中动、静态限制因素,搜索空间的指数级增长会带来非常大的计算消耗,为了降低计算消耗成本,现有方法将动态的限制因素在一定的规则下转为静态因素。针对动态栅格环境,首先设计了扩展层次图(Extended Hierarchical Graph,EHG),将目标环境的动、静态限制因素数据转换为对应每个栅格的可通行
学位
随着社交网络的快速发展和全球定位系统(GPS)的出现,人们越来越倾向于在位置社交网络(Location-based Social Networks,LBSNs)上以签到的形式分享他们的日常生活和旅游体验,兴趣点(Point-Of-Interest,POI)推荐则是快速发展的LBSNs中最重要的服务之一。在考虑签到行为周期性的基础上,时间感知的POI推荐旨在为给定的用户在一天中的指定时间推荐该用户未
随着社会的发展进步,各类高新技术、产品不断面世、落地、推广,人们的生活越来越便利,而支撑着这一切的关键便是电能。研究设备运行参数的异常检测技术,以保证电厂机组设备安全、可靠地运行,具有十分重要的现实意义。对电厂设备运行参数的异常检测,即使用设备在正常工况下的运行参数建立模型,要求该模型能识别出设备运行时发生的异常,尽早发现设备的劣化趋势,为故障诊断提供可靠的依据。  首先,提出了结合特征强化的深度
学位
随着互联网的普及和智慧城市的发展,视频资源日渐丰富,基于视频的行为识别受到大家的广泛关注,其应用场景包括视频监控、视频审核以及智能安防等。最新的研究趋势是采用3D卷积神经网络进行视频行为识别,然而其增加的时间维度极大加重了模型的计算负载,使其难于应用终端设备。另一方面,视频行为识别模型与图像识别模型相比,更迫切得需要时序全局信息,因为它要求模型所提取出的行为特征具有整体连贯性和显著性,即要符合视频
学位
随着互联网的快速发展和智能手机用户数量的增长,通过Internet访问和传播敏感(色情)图片变得非常容易,识别并过滤互联网上的敏感内容对于未成年人的健康成长和互联网的发展至关重要。近年来,基于卷积神经网络的敏感图像识别方法已经基本取代了传统方法,此类方法通常将敏感图像识别当作一般的图像分类任务,即从整幅图像中提取特征并进行分类。但是由于敏感图像的特殊性,敏感部位一般出现在整幅图像的局部,因此仅依赖
随着智慧城市的大力建设,监控摄像头等终端设备的体量暴增,对于终端设备的智能化分析需求也越来越大。作为计算机视觉任务中不可或缺的基础,目标检测因其重要的应用价值而获得广泛的关注与研究。近年来,深度学习的飞速发展使得目标检测的性能得到了极大的提升。然而,现有的目标检测网络由于其较大的计算量和参数量,大多不能应用于计算能力和存储资源有限的设备,如电子芯片、手机等。  为了实现专用于资源限制场景的轻量级视
学位
图像拼接的任务是将多个具有一定重叠部分的图片拼接成一个无缝的大视景图像。目前图像拼接技术被广泛地用于生成全景照片、医学图像、虚拟现实等各个领域。现代的图像拼接算法通常基于特征匹配技术,依据图像中的特征匹配来估计图像的变换矩阵进行图像配准,再通过一定的方法融合配准后的图像得到拼接结果。  传统的图像拼接通常要求输入图像没有或只有很小的视差,具有较大视差的场景下的图像拼接问题是图像拼接领域的一个难点,
学位