基于图像拼接技术的自然场景视频文字识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:grand1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
服务机器人、自动驾驶等的运用过程中,往往要对视频图像进行处理,获取周围信息。而文字包含了许多高概括度的语义信息,在图像及视频的理解中承担着十分重要的功能。传统的印刷文本的识别与提取(OCR)技术已经十分成熟,但在文档之外,自然场景的文本识别则难度较大,且日益成为研究的热门领域。目前对于视频的文本获取,基本都将其分割为单帧图像进行处理,这将导致大量的重复以及不直观,特别是较大视场的文字以及数字信息,大多数方法得到的效果非常差。本文从这一角度出发,利用帧间联系,处理整个视频,获取其中文本全景图,获得直观的文本信息。首先,搭建文本检测神经网络,对YOLOv3目标检测框架进行修改,调整锚框横纵比、卷积结构等,使其更加符合文字检测的要求,融合多尺度锚框结果,在ICDAR13等数据集上进行端到端的训练测试,目的在于获取高速可靠的文本检测框架。然后,建立了文本跟踪模型,针对于视频文本处理,每一帧都使用检测将消耗大量的运算资源,采用跟踪代替检测,可以提高视频处理速度,获取关键帧。本文采用ECO跟踪技术,提出了改进版ECO,对检测出的文本进行持续跟踪,获取运动状态下文本的位置变化,及时判断文本开始结束关键帧,并对检测出的文本的裁剪、文本跟踪的停止条件等进行了规定,使得视频的处理全自动化。最后,对关键帧图像进行拼接,着重关注文本部分的拼接效果,消除全局拼接带来的重影现象,提高拼接速度及文本区域的效果,获取文本全景图,获知视频内的文本信息。提出了一种基于局部的全局拼接方法,能够利用跟踪的文本框区域获得转换矩阵。并且整个拼接与跟踪定位相联系,能够用最少的有效帧来获取全景图,且无论对于大视场文字还是小的局部文字,其处理方式都一致,保证了整个视频处理的文本信息提取无遗漏,并解决了文字提取的重复性问题。制作算法处理界面,方便人机交互以及更好分步处理视频文字。
其他文献
报告1例阴茎中线囊肿。患者男,20岁。发现龟头近尿道口处起肿物2年。皮肤科检查:生殖器发育正常,龟头近尿道口下方系带处见1个绿豆囊性皮色结节,表面光滑,质软,无明显触痛及
谢尔盖·拉赫玛尼诺夫(1873——1943)俄国作曲家,钢琴家,1918年定居美国,死前数周入美国籍。拉赫玛尼诺夫虽然在20世纪生活了很长一段时间,但他却是个彻头彻尾的传统主义者,
自1993年中关贸易出现顺差以来,贸易差额持续扩大,由于利益集团的推动,美方借口中关贸易巨额赤字问题对人民币汇率、知识产权等问题频频横加指责。在分析中关贸易顺差问题时有必
随着人工智能技术水平的逐渐提升图像处理成为常见的技术,被广泛应用在各个领域中,为人们提供优质的服务.从计算机视觉算法与图像处理技术入手,进行计算机视觉显示系统设计,
为了研究储藏过程中不同温度和气调条件对稻谷品质劣化的影响,利用蛋白质组学技术探讨稻谷储藏陈化的分子机理,研究温度37℃、25℃和25℃+CO_2气调下稻谷储藏90 d品质和蛋白质
必须抓好党纪、政纪处分决定的落实党纪、政纪处分决定的落实工作是案件查处工作的重要一环,一定要认真抓紧抓好。首先,要保证处分决定的正确性。处分决定的正确性是保证处分
近几年来,随着国家各项惠农支农政策的相继出台,以及当地政府的科学领导,东港农业有了很大发展。农民人均纯收入逐年提升,农民负担大幅度减轻,新农村建设步伐不断加快。但同
稳定杆固定装置起着为稳定杆提供支撑、缓冲、隔振、降噪及提供部分扭转刚度的作用,保证车辆在转弯行驶过程中的稳定杆产生应有的角刚度,减小整车的侧倾角,从而保证整车的操
为了减少交叉口处交通事故的数量,提高道路的通行效率,提出一种基于视频检测技术的交叉口人车安全系统。针对信号交叉口处行人与车辆之间的关系,提出一种基于视频检测技术的
1病例报告患者男,18岁,士兵。1年前野外驻训期间发现阴茎腹侧粟粒大小皮色丘疹,无自觉症状,未就诊,之后皮损逐渐增大为半透明囊肿,遂来我部就诊。既往体健,无系统性疾病及其
期刊