面向复杂背景的视频文本定位研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:heyouzhang035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像和视频中的文本含有重要的语义信息,可以帮助我们对图像和视频的理解。文本定位技术被广泛的应用在基于内容的视频图像检索和理解等各个领域。然而,从图像和视频中检测和定位出文本并不容易,其主要原因在于图像和视频中的文字通常都叠加在复杂的背景之上。例如,背景的颜色可能和文本的颜色相似,或者背景中含有与字符笔画相似的线条结构等情况,都会给检测和定位工作带来很多干扰。本文针对复杂背景条件下的视频文本检测和定位展开研究,提出了两种不同的算法。归纳起来,主要工作如下:第一、同时考虑字符在视频时域上的特点以及字符笔画的方向信息,结合基于梯度进行文本检测的方法,提出了一种新的由粗到精的文本检测定位算法。粗检测时,利用加权平均梯度能量特征和运动能量特征,得到所有可能含有文本信息的字符块,然后通过连通分量分析去掉虚假的文本区域。精检测时,则利用梯度方向分布的统计特征验证,选取真正满足要求的文本区域。此外,提出了一种简单的视频文本区域跟踪算法。第二、通过提取人工文本和背景间的过渡像素,提出了一种基于过渡像素人工文本检测与定位算法。通过观察可以发现,在人工文本和他相邻的背景区域之间存在着过渡颜色。该方法首先在水平和垂直方向上提取过渡像素点,生成过渡图。通过块滤波器抑制背景的过渡像素,并采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区,对于检测出的文本区域利用基于过渡图的投影映射精确定位出文本区。实验表明本文提出的两种方法能够适用于不同的语言、字体、尺寸和颜色的字符,同时与现有的方法相比,该两种算法在运算速度、准确率和虚检率方面都有明显的提高。因此,本文提出的两种方法具有很好的应用前景。
其他文献
近年来,人们对城市空气质量以及地球石油资源危机等问题的日趋重视。为了保护环境,节约能源,在世界范围内以蓄电池作为电力能源在交通运输、通信等部门的设备中,已得到了广泛运用。由于蓄电池的充放电是一个比较复杂的电化学过程,虽然厂商多在其使用标识上号称有10年的浮充寿命,在实际应用中,由于充电方式的简单,这些蓄电池的实际浮充寿命还不到其宣称的一半。同时,在实际应用中,这些电池往往是多个串联的。电动汽车电池
基于麦克风阵列的声源定位技术因设备智能化的发展而变得越来越重要,它用于获得声源的方向和距离信息。如何在声源定位的过程中解决自然噪声、混响、以及声源随机性等因素带
半导体激光器(Laser Diode)的应用十分广泛,在工业生产和技术方面的应用如光纤通信、激光打印机、高清晰度激光电视等;在医疗和生命科学方面的应用如激光手术治疗、激光动力
六自由度飞行模拟平台控制系统是一个由数字计算机来进行实时控制并且能提供俯仰运动、横滚运动、偏航运动、升降运动、侧向平移运动和纵向平移运动的六自由度瞬时过载仿真设
目前,动态聚类算法的研究及其应用是当今数据挖掘领域研究的一个热点。在临床医学数据分析研究领域中,利用聚类算法对医学数据进行聚类分析,不仅可以提高海量医学数据有效直
在大数据的背景下,批量处理图像和视频已经成为一种常态。所以人们对图像和视频处理算法的速度要求就更高了。块匹配算法是很多图像和视频处理应用的基础算法。然而,块匹配算
随着集成电路技术和工艺的不断发展,片上多处理器结构成为体系结构设计者提高系统性能采用的主要手段。片上多处理器结构为软件编程人员开发并行编程提供了平台,为了充分利用
随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语言信息,还包含着说话人
遥感图像配准是指对同一地物目标区域的两幅或多幅图像进行参数变换,使其在空间位置上实现精确配准,是遥感图像处理的重要内容。本文着重研究已经过粗校正预处理的遥感图像几何
非视距误差是影响定位系统精度的主要原因,尤其是在室内定位系统中,由于建筑物的建筑结构会造成信号的非视距传播,使得接收端得到的信号测量值存在NLOS误差,最终导致定位结果