视频文本提取技术研究及在虚拟卡拉OK中的应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jsnjwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理解、检索是非常有价值的。视频文本不同于普通扫描文档可以直接使用OCR识别提取,视频文本在大小、形状、颜色等属性上存在很大的差异,多数情况下文字还处于复杂背景之中,这些都成为文字提取过程很大中的阻碍。如何利用视频文本的特性,在已有研究的基础上更好地将文本提取出来,成为了本文研究的重点。对于视频中可能存在几种颜色字幕的情况,本文提出了一种综合利用文字颜色、边缘、几何特征的方法。首先采用梯度法检测连续多帧文字位置,然后将位置映射到原始视频帧中,这样可以获取大量准确可靠的文字颜色信息,根据这些颜色信息,采用GMM (Gaussian Mixture Model)对颜色建模,在后续帧中利用模型提取文字颜色层,同时更新模型。根据视频具有的时间冗余性,提出了“与”掩码图的方法判断有无新的文本对象产生。该方法综合利用了文字的多种特性,在视频中背景与文字颜色差距较大时能有效提取文字。针对视频中的静止文字时间和空间上的冗余特性,本文提出了一种检测-跟踪的方法。首先对视频帧进行边缘检测获取文字区域,然后以文字区域的边缘位图为匹配特征跟踪文字,精化检测结果,实现了对文字对象快速有效的定位。同时文字跟踪也避免了对每帧进行分割、识别,减少了计算量。在分割阶段,针对视频文本的分辨率较低的情况,先是采用了多帧融合方法增强文字区域然后进一步对文字进行插值放大。本文设计了一个虚拟卡拉OK系统,将卡拉OK视频文字提取与人物检测联系起来。在卡拉OK视频文本定位中,采用了小波变换与形态学相结合的方法。对视频帧进行Harr小波分解后开、闭操作分解子图,选择了在最大程度上去除了背景噪声的斜向高频带映射到原始视频中定位字幕区域。该方法不敏感于颜色,能更好的定位卡拉OK文本。在人物分割上,选用了单高斯背景建模的背景差法。最后将提取的文本和分割出的人物与任意选取的场景中进行图像融合,可对人物边缘做模糊化处理以达到较好的视觉效果。本文提出的两种方法都选用了几种不同类型的视频进行了性能测试,实验结果表明这几种方法都具有较高的检测性能,能够较好地提取不同类型视频中的文字。
其他文献
在过去的研究中,手臂动作的识别多集中在计算机视觉领域,采用摄像头,智能眼镜等设备来捕捉获取动作的图像信息,进而对图像信息进行识别。而随着科学技术的发展,传感器设备的
无线传感器网络(Wireless Sensor Network)是一种由传感器、微处理器和无线通信接口组成的新型网络。由于它采用全新的信息处理和获取技术,所以在医疗和军事等领域有了广阔的
随着计算机图形学的快速发展,真实感图形学已经成为计算机图形学的核心内容之一。全局光照计算是场景绘制迈向真实感的一个必要手段,如何实现更好的全局光照算法,在更短的时间内
安全协议是以密码学为基础的协议,它在因特网和分布式系统中提供各种各样的安全服务。近年来,利用形式化方法分析安全协议正在成为一个新的趋势。本文首先在分布式时序逻辑的
问答系统可以视为信息检索问题的一种特殊形式。给定一个文档集合,一个问答系统致力于找到这个使用自然语言形式提出来的问题的答案。问答是一个多学科的课题,它包括了信息技
如今越来越多的业务过程由显示过程模型驱动的信息系统进行控制和管理,无数的过程工程、过程建模和过程实现的方法也随之出现。该领域内众多的技术生动地说明了以业务过程为主
图像置乱是图像加密方式的一种,有着多种用途,包括信息隐藏、水印保护等。随着用户隐私保护意识的增强,人们更加关注的是图像置乱后是否能达到好的加密效果,因此,图像置乱度
图像配准是图像融合、图像分析、图像重建的基础,尤其在医学图像处理领域,图像配准发挥着重要的作用,高效准确的配准方法可以辅助医生进行医疗诊断,制定手术计划,跟踪病人的
无线传感器网络通常用于对监测区域内的各种环境或对象进行信息采集并传送到基站处理,其中数据收集在此过程中占有重要的地位。很多数据收集应用都位于人不可到达或环境恶劣的
随着网络的飞速发展,我们需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙等的传统网络安全技术己不能很好地满足目前网络安全的需求。入侵检测系统作为一