基于时空上下文的视频文字识别算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mddh9666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字社会的发展,视频在日常生活中越来越常见,提取视频中的文字信息在自动导航、场景理解等多种应用场景下具有重要意义。视频文字识别系统可以看作是一个多目标跟踪系统,对于视频中的文字进行识别的子任务包括了:视频文字实例检测,由文字实例形成文字轨迹,由文字轨迹得到识别结果。视频与静态图像有很大不同,其主要表现在视频中的环境是不断变化的,其中的文字实例也是不断运动,导致了视频中常会出现运动模糊、光照变化、复杂背景等情况。这些干扰对于视频中的文字检测、轨迹生成以及识别都带来了挑战。与单张图片相比,视频是由多帧组成的,视频中的连续的多帧图像存在一定的相似性和关联性,同时视频中的文字实例往往也是存在于多帧之中的。帧与帧之间从图像层次以及实例层次都构成了一种上下文关系,这种上下文关系指的是连续帧之间的相似性以及文字实例存在的连续性,利用这种上下文关系理论上可有效解决以上视频中特有的挑战。本文从这种时空上下文关系出发,展开了以下研究:1)针对视频文字检测,本文利用图片级别的时空上下文关系,设计了一个特征聚合模块,通过聚合视频中的相邻帧的特征图来增强当前帧的特征图,借助基于图片级别上下文聚合得到的特征图具有更好的表征效果,可以更好的检测到受运动模糊、光照变化等干扰的文字实例。2)对于检测到的文字实例,需要对其进行区分关联而得到相应的文字轨迹,针对文字特性,本文提出基于文字字符金字塔直方图的语义编码属性,同时结合文字视觉属性,通过度量学习训练,得到可以鲁棒区分不同文字实例的特征向量,形成准确文字轨迹。3)对于由文字轨迹得到该文字目标识别结果的过程,本文利用实例级别的时空上下文关系,提出基于位置信息引导的注意力机制算法对单个文字实例进行识别,同时基于字符坐标改进的kmp算法对于同一文字轨迹的多个文字实例的识别结果进行对齐以及字符选取得到完整识别结果。以上研究构成了一套完备的视频文字信息识别框架,其同时实现了视频文字检测和文字轨迹生成。由于以上方法的有效性,本文方法相比以往方法具有更强的鲁棒性,该方案在该领域多个公开的基准数据集的相应任务上取得了最高或具有竞争力的结果。
其他文献
新疆地区煤炭资源储量丰富,将新疆打造成为我国的重要能源基地,已被提升至国家级战略高度。独特的成煤环境导致多数新疆煤具备高碱/碱土金属的特征,从而导致其在燃烧过程中面临着严重的灰沉积相关问题。因此,针对新疆煤的灰沉积进行防控研究具有重要实际意义。研究表明添加剂及混烧可有效缓解煤的沾污、结渣问题,但以高岭土等为代表的矿物添加剂由于成本较高,很难实现工业应用。稻壳灰等生物质灰中含有大量的硅,属于潜在的优
潜艇凭借其特殊的隐蔽性和机动性,获得了世界各国海军的青睐,逐步成为国家捍卫领海主权的利器。受到声呐技术的低频化的驱动,积极推进潜艇声隐身性能的研究,对增强我国现役潜艇的攻击性、隐身性及寿命有着重要意义。具有周期性空腔排布的声学覆盖层已经被广泛应用于水下航行器,以满足减小声辐射和降低结构自噪声的需求。故而设计出一系列满足某种特定工况的具有较高吸声或隔声性能的声学覆盖层具有十分重大的意义。本文以具有轴
现今,抗生素已在全世界范围内被广泛使用,但由此引发的环境污染问题日趋严重。残留于水体环境、土壤环境中的抗生素具有致畸、致癌效应,甚至会导致死亡。因此越来越多的学者开始关注如何开发出可以有效处理抗生素废水的新技术,以减少对人类、动物及环境的危害。本论文探究了以铜改性石墨毡(GF/Cu)为阴极、石墨板为阳极,分别与合成黄铁矿(syn-FeS2)和天然黄铁矿(com-FeS2)构建三维电极体系电催化降解
研究背景及目的:Toll样受体(Toll-like receptors,TLRs)是机体识别及抵御病原菌的重要途径,髓样分化因子88(Myeloid differentiation factor 88,MyD88)是TLRs的关键信号转导分子,TLRs/MyD88信号可参与调控机体肠道免疫,组织黏膜修复和肠道菌群,介导肠道菌群与宿主间相互作用。然而MyD88分子在肠道炎症发生发展过程中的作用及其机
近年来,蓬勃发展的低功耗广域网(Low Power Wide Area Network,LPWAN)为物联网中能量有限的传感器提供远距离、低功耗的通信连接。其中,远距离无线电(Long Range Radio,LoRa)作为代表性技术受到了研究者的广泛关注。然而,有限的能量和低成本的硬件使得LoRa节点难以实现复杂的接入协议,导致密集部署的LoRa节点在传输数据时容易产生冲突,影响解调效果。为解决
研究背景:特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)是一种由不明原因引起的慢性、进行性、纤维化性间质性肺病。其临床特征主要表现为进行性呼吸困难,限制性通气障碍,最终出现呼吸衰竭及死亡。IPF患者的预后极差,治疗手段有限,经确诊后的中位生存期仅为2-4年。IPF的病理表现以肺泡结构紊乱和间质纤维化为主要特征,其发生机制与肺泡上皮细胞的反复损伤和成纤维细胞的增
椭偏仪通过探测偏振光与待测样品反应前后偏振态的改变来获取样品的几何形貌和光学信息,具有快速准确、非接触无损伤、低成本和易于集成等优点,被广泛应用于纳米薄膜厚度和材料光学常数的测量与标定。随着高k材料、宽禁带半导体、超薄膜等在光电子、微电子等领域的广泛应用,迫切需要开发紫外及深紫外光谱椭偏仪,以满足这些材料测量表征需求。光谱椭偏仪的性能依赖于偏振调制器件的使用光谱范围,常用的偏振调制器件包括旋转补偿
镧系离子掺杂的上转换发光纳米颗粒(UCNPs)具有不闪烁、反斯托克斯位移大、多峰窄发射、长寿命等发光特性,在显示、防伪、生物医疗等领域具有巨大应用潜力。然而较低的发光效率仍然是限制UCNPs实际应用的瓶颈。最近,通过多层结构提高发光效率、调节发光性能已经成为上转换纳米材料研究的前沿领域。鉴于稳定且可调控的发光性能对于多层结构UCNPs的实际应用至关重要,本文合成了NaYF4:Er/Tm@NaYbF
近年来,网络生物学在生物医学领域的应用逐渐增多。在临床和生态学研究中,网络生物学是获取生物个体间相互依赖关系和发掘生物功能性社团的有效手段。但在当前,想要完成复杂生物网络中网络结构的识别和具有生物学意义的生物社团的精准发掘,急需更加优秀的社团发掘算法。作为一种新兴技术,图嵌入算法在网络特性研究上呈现出了卓越的性能。虽然该算法已被成功应用到了各类生物医学研究中,但对其在生物社团发掘上应用潜力的探索并
随着计算机科学、生物学、控制理论等学科的不断发展,脑机接口(Brainmachine Interface,BMI)在残障人士运动功能重建的临床应用中表现出巨大潜力。根据获取神经信号方式的不同,脑机接口可以分为非植入式脑机接口和植入式脑机接口(Intracortical Brain-machine Interface,i BMI)。本文的研究是基于植入式脑机接口进行的。植入式脑机接口通过在大脑皮层中