基于蚁群算法的新闻视频字幕识别

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:tianzhiziyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的飞速发展,人们的生活几乎时刻都离不开互联网。在工作、娱乐、交流中每时每刻都在产生大量的视频,图像等多媒体信息,如何快速高效的存储并且检索这些信息,已经成为当今科学研究的一大热点。新闻类节目是人们获取外界信息的主要途径,研究新闻类视频信息的检索具有重要应用价值和代表意义。新闻视频中的字幕,尤其是主题字幕,往往反映了新闻故事的语义内容,能够给视频检索和索引提供重要的辅助信息,我们可以利用视频文本信息直接判断视频所讲诉的内容,然后可以进行后续许多深化应用。因此,如何准确、快速地获取视频字幕文本信息,成了视频检索的关键。利用人工来获取视频中的文本,在视频数据泛滥的今天已经变得不现实。因此,提出一种正确有效的方法,利用计算机自动识别视频中的文字已经是一种迫切需要。本文首先对一个新闻视频先采用自适应双阈值方法对其进行镜头分割,根据镜头内相邻帧差出现峰值来判断文字的出现与消失,提取每个镜头的关键帧。根据已经获得的字幕起始帧与结束帧,通过多帧融合技术,提高字幕与背景之间的对比度,降低背景的干扰因素。然后经过分析和比较各种纹理特征,针对新闻视频字幕,提取了以下3个特征作为文字与非文字区域的辨别:1.灰度共生矩阵和方差(在比较了灰度共生矩阵其余10个特征后选取)。2.图像小波变换LH子带、HL子带以及HH子带的系数方差(考虑文字纹理特征,选取系数方差最大的)。3.角点密度(利用了文字多笔划特点)。接着将视频帧分块,利用提取的特征对文字块与非文字块进行分类。在分类器中做得比较好的有svm(支持向量机)和BP神经网络,但这些方法的一个通用的缺点就是必须要有一个预先的训练样本集,不同的样本类型和不同的样本容量结果可能完全不同。本文采用了蚁群算法的自适应性和反馈机制,创造性提出一个启发式引导函数,巧妙地将3个特征融入为蚁群算法的启发引导因子。最后利用形态学处理确定一个最终的文字区域。对于输入OCR识别的文字图片,需要先进行二值化处理,本文比较了传统的二值算法——otsu算法,提出一种迭代二值化算法,提高了OCR软件的识别准确率。
其他文献
高可靠性软件是当今软件开发的热点问题.确保算法程序逻辑结构正确最理想途径是算法程序的形式化推导和证明。循环不变式在软件形式化方法中占有十分重要的地位,它是理解、证
客户关系管理(Customer Relationship Management,CRM)是以“客户为中心”经营理念的集中体现,它是在商业竞争日趋激烈,客户个性化要求更明显的环境下应运而生的。CRM的本质
在数字取证、入侵检测和逆向工程等领域,经常会遇到一些类型未知或格式不明的数据或文件片段。如何快速识别出这些数据的数据类型或所在原文件的文件类型是一个至关重要的问题
网格是90年代初提出的新概念,它将分布在不同地理位置的计算资源通过高速的互联网组成一台超级计算机,实现各种资源的全面共享。网格计算是伴随着互联网技术而迅速发展起来的
近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领
随着Internet上数字图像的种类和数量的飞速增长,寻求高效的基于内容的图像检索技术成为目前主要的研究方向之一。人是现代信息社会的主体,有关人的图像是现代商业和日常生活
受益于网络技术和移动通信技术的发展,基于移动计算设备的应用已经越来越广泛。人们使用个人数字助理PDA(Personal Digital Assistants)、智能电话等移动手持设备随时随地进
对于现代通信网络,可靠性和稳定性越来越重要,基站收发信机的工作状况给无线网络的服务质量造成最直接的影响。由于无线基站在地理分布上的广泛性和分散性,基站收发信机控制
网络文件下载,也可称为文件资源共享,一直是网络发展最重要的推动力之一。为了提高文件的传输的速度、质量和容量,人们设计和制作了各种各样的网络协议和下载工具。下载工具
存储接口串行化已成为高性能I/O技术的发展趋势,SAS(Serial Attached SCSI)是新兴的串行磁盘连接技术。SAS接口芯片、适配器、硬盘驱动器和SAS扩展器构成一个SAS存储系统,其