自然场景视频中文本的检测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lbwang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种智能终端设备的广泛普及和社交媒体的快速发展,自然场景视频的采集、存储、处理和传播越来越方便,这导致了视频数据的迅速增长,同时也对有效的视频信息提取提出了迫切的需求。作为一种关键和直接的信息来源,自然场景视频中的文本包含了关于视频内容丰富的语义信息,对于视频索引、检索、分类、理解等各种基于内容的视频应用具有重要的价值,因此得到了计算机视觉、图像处理等研究领域的广泛关注。视频中的文本具有和静态图像中文本共同的部分特点,例如文本大小、方向、颜色、样式等方面多变的外观,以及复杂的文本背景、光照条件等上下文的干扰。此外,视频中的场景文本还具有不同于图像文本的特性,例如由文字所依附的物体或相机的运动导致的模糊、视角变化以及相邻视频帧间文字外观和位置上的时间相关性等。因此视频中场景文本的检测成为了一项具有挑战性的任务。近些年来,针对静态图像的场景文本检测研究发展迅速,而针对视频中文本检测的研究结果较少。因此,本文针对视频中场景文本的有效检测方法进行了深入的研究和探索,并提出了两种具有创新性的视频文本检测方法。为了有效利用文本在相邻视频帧间的相关性,本文提出了一种结合帧内基于卷积神经网络的文本检测与帧间基于相关滤波算法的文本跟踪的视频文本检测方法。首先,本文设计并实现了一种可靠的静态图像文本检测网络,用于得到单帧图像的文本检测结果,该网络包含多个新颖的refine模块,利用低层特征改进高层语义特征,从而更加精细地融合高低分辨率的特征,以提高文本检测的性能。接着,本文利用基于相关滤波的跟踪算法对检测获得的文本对象进行跟踪,得到跨帧的文本跟踪结果。最后,本文设计了一个有效的合并算法对检测结果与跟踪结果进行合并,过滤掉静态图像文本检测网络误检测的文本对象,并补全其未检测到的文本对象,提高了视频文本检测的准确率和召回率。针对因视频中文字所依附的物体或相机的运动导致的模糊等图像退化情况,本文提出了一种新颖的结合视频去模糊的视频文本检测方法。本文首先设计并实现了一种鲁棒的视频去模糊网络,用来对视频帧进行处理,得到去模糊后的清晰图像,其中视频去模糊网络使用包含长跳跃连接和短跳跃连接的多层卷积块结构,融合多个相邻帧的信息以渐进地学习中间视频帧的残差细节,并且使用空间注意力机制有目的地聚焦于视频帧中模糊的区域,从而得到更加清晰的中间视频帧图像。然后,本文设计了两种有效的文本检测网络,用于在去模糊后的视频帧基础上进行文本检测。第一种文本检测网络在EAST检测模型的基础上引入可变形卷积和反卷积层用来更好地捕获文字多变的外观,并从去模糊后的视频帧图像中得到最终的视频文本检测结果。第二种文本检测网络采用Mask R-CNN模型作为基础的文本检测器,并利用特征选择机制自适应地选择输入的原始图像或去模糊后的清晰图像的特征用于视频文本检测。为了验证本文提出的视频文本检测方法的有效性,本文在多个公开的视频场景文本数据集上对本文方法进行了深入地实验测试和对比分析。实验结果表明,相较于已有的基于单帧检测或者结合跟踪机制的视频文本检测方法,本文提出的两种视频中场景文本的检测方法具有优异的检测性能。
其他文献
近年来,随着互联网与社交网络的快速蓬勃发展,用户为了享受社交网络平台提供的所有服务,会在多个社交网络平台上注册账号。用户对齐就是在多个社交网络上发现同一个人的账户,
有丝分裂过程中,染色体的准确分离需要诸多亚细胞结构的协同运作。位于着丝粒两侧的动粒复合物是其重要的参与者之一。动粒蛋白的缺失或异常可导致纺锤体微管与染色体结合异常、染色体向两级移动过程滞后、染色体排列错误和非整倍性等灾难性后果。人源动粒复合物可分为内层动粒和外层动粒。内层动粒与组蛋白H3的变体CENP-A结合,与着丝粒区域DNA相连。内层动粒依据其功能分为五组亚复合物:CENP-C,CENP-H/
近年来,虽然职业教育发展比较快,但仍然不能适应经济发展方式的转变,所以国家加大对职业教育的政策支持和资金投入,这使得职业教育虽然面临着威胁但又面临着重要的发展机遇。
三维石墨烯结构具有比表面积大,密度低,机械强度高,导电性好等优点,受到了研究人员的广泛关注。商业化三聚氰胺海绵价格低廉,微观网络结构丰富,氮含量高,因此,本论文采用几种不同的策略,以三聚氰胺为模板,对石墨烯进行组装构建了三维石墨烯及三维石墨烯基复合材料,并将这些材料应用到锂离子电池和锂硫电池中,获得了优异的电化学性能。1.以三聚氰胺海绵和氧化石墨烯为原料,采用浸渍-冻干和热处理相结合的方法制备三维
人民法院组织诉讼当事人和全体参与人的参与下,依据国家法律法规审理和解决民事纠纷的活动,以及由这些活动所发生的诉讼关系称为民事诉讼。在当代社会,民事诉讼是定纷止争、
随着新版普通高中历史课程标准正式发布,学生历史学科核心素养的培养得到前所未有的重视。历史解释素养作为核心素养之一,是学生建构历史的重要途径,也是学生历史素养的综合体现。历史细节教学以历史细节为基础,深入剖析历史本身,再现历史情境,展现历史的真实性和思想性,运用历史细节教学可以增强学生对历史知识的理解与解读,培养学生理性分析和客观评价历史事物的能力。基于此,本文将历史细节教学作为促进高中生历史解释素
水下气体射流随进口气体速度从很低逐渐增加出现了完全不同的两种流态,即泡流流态和射流流态。本文通过实验的方法对这两种流态做了分析探讨。在泡流流态对比研究了环形喷管
网络编码技术允许编码节点对接收到数据包编码后转发,信宿可利用接收到的编码包和已有数据包同时解码出请求包,能有效提升网络传输有效性。网络编码技术通过编码节点的计算开
物联网已经被广泛应用于监测,收集和处理周遭环境信息。并且,它们常被部署在高原、峡谷、荒漠和深海等人迹罕至的复杂环境中。由恶劣且复杂的环境和隐蔽且频繁的网络攻击造成
纳米空心材料在结构上与实心材料对比有着表面积大,密度低,承载力高的特点。故纳米空心材料在催化、药物运输、造影剂、锂离子电池阴阳极上都有着相应的特殊性质和广泛应用。将空心材料与其他具有功能化的材料进行复合,构筑具有特殊结构的微纳米反应器是在纳米空心材料研究中比较新颖的研究方向。在微纳米反应器的内部不同的组分间有机的结合在一起,在保持各自性质特性的同时,彼此之间又有着相互的辅助,从而表现出“一加一大于