基于深度学习的自然场景中文本检测方法研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:joyden137
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文字信息具有明确的语义,有助于对自然场景内容的理解和分析。近几年,自然场景中的文本检测和识别作为计算机视觉领域中的重要研究方向,引起了国内外学者和研究机构的广泛关注,其成果可以广泛应用于场景分类、机动车自动驾驶、机器人视觉等领域。其中,自然场景中的文本区域检测和定位的结果会直接影响下一步文字识别的准确率。现有的文本检测技术大多都是根据文字自身结构特点进行人工的特征提取,然后再结合机器学习的方法来检测文本区域。由于自然场景非常复杂,而且自然场景中的文字具有多样性,因此,这种人工特征通常只适用于特定条件下的场景,整体的检测准确率较低。随着深度神经网络的发展和成熟,很多学者和研究机构设计了不同的文本检测网络模型来实现端到端的文本定位。与前面的传统方法相比,检测性能有了大幅提升,但是特征学习阶段较耗时。因此,本文深入研究了自然场景中文本的传统特征及深度网络特征的提取方法,将传统特征与深度网络特征融合,用传统特征去指导深度网络特征的提取,以提高深度网络提取特征的速度。本学位论文的主要研究内容如下:首先,根据带有复杂背景的实际自然场景图像中文本所具有的多语言、多方向、多尺度、多形态的特点,查找并收集数据集,构成包含中英韩等多语言、文字排列多方向、大小不一、背景复杂的文本图像数据库。其次,研究传统图像提取算法对文本与背景之间产生的差异,利用不同的文本结构特征提取文字区域。研究显著性检测算法对场景文本图像的有效性,分析视觉关注模型对文本目标的检测效果。融合不同的传统特征提取方法找到最凸显文本区域的文本区域候选。然后采用机器学习方法,利用其强大的分类能力判断文本与非文本区域,提高检测准确率。最后,将传统方法与深度学习方法相结合,得到更好的文本特征从而增强文本特征表示,减少神经网络产生的冗余信息。同时利用传统特征融合得到的文本概要图与拥有强大特征提取能力的卷积神经网络,并利用深度检测网络端到端的处理方式,对文本区域进行精确定位。本文提出的两种自然场景文本检测方法在一定程度上提高了自然场景文本检测性能。通过实验证明,本文提出的多尺度MSER结合ITTI模型的方法与其他传统方法相比,综合性能指标提升1到5个百分点,并可以处理文字多尺度等情况。提出的结合传统特征与Advanced EAST模型的文本定位方法,在自然场景图像中存在的文字多方向、多语言等条件下能够进行准确定位。该方法结合了两类方法的优势,因此能有效提取文本区域显著特征,同时也降低了网络训练时间。实验结果在多种数据集上进行了测试,证明了本文方法对不同场景文本具有较好的鲁棒性。
其他文献
第二届中国国际压缩机技术及设备展览会于2006年8月2日在中国国际展览馆隆重召开。作为一次压缩机的专业展会,本次展会已经是第二次举办了。与第一届展会相比,本届展会在以压缩
前列腺癌是老年男性泌尿生殖系统最常见的恶性肿瘤之一,前列腺穿刺活检是术前诊断前列腺癌最可靠的检查方法[1]。经直肠超声引导下前列腺穿刺活检术(TRUPB)的前列腺癌检出率高,
国外管理创新理论的代表人物Ray Stata首次提出了公司中的管理创新问题,并将管理创新与产品创新、流程创新相区别,指出管理创新是公司发展的瓶颈,也是企业管理中没有受到普遍重
首都医科大学附属北京天坛医院神经外科医学博士贾文清、张玉琪等研究发现,儿童期脑膜瘤以肿瘤巨大型多见,肿瘤恶性率高,且因生长部位不同而易与胶质瘤、颅咽管瘤、室管膜瘤、脉
针对洛阳石化精对苯二甲酸(PTA)装置干燥机支撑托圈故障进行了原因分析,通过改进支撑、传动方式解决了问题,避免了由于设备长期停工造成经济效益的损失,并对以后的设备运行、维护
目的:运用人工全膝关节表面置换术治疗晚期膝关节骨性关节炎,观察并探讨其早期临床疗效。方法:回顾性分析2011年3月至2015年8月期间在本治疗组行全膝关节表面置换术的晚期膝
热力系统水力失调问题严重影响着供热系统正常运转。对自力式差压控制器原理进行分析和论述,通过热网的平衡改造实际应用,有效解决了长期困扰热力系统水力失调的问题。
一、我国建设项目管理模式现状建筑业在我国是最早受到国际惯例冲击的行业。1984年,建筑业被选为国家经济改革的试点行业,并逐渐搭建起以招标投标制、建设监理制为主的法律框架
为了解我县食品从业人员的卫生知识水平状况,为今后健康教育与卫生监督提供科学依据。我们在2009年612月食品从业人员健康体检的同时,对其进行了卫生知识水平调查。现将调查