新闻视频字幕的自动提取和识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:juanzi0666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻视频中的字幕文字通常含有新闻人物人名,新闻事件主题等很重要的信息。新闻视频字幕文字作为一种高级语义信息,对新闻视频内容的理解、索引具有重要作用。本文研究的是新闻视频字幕文字的提取和识别,主要包括新闻视频字幕文字定位、跟踪、分割和识别四部分算法及关键技术的研究。在新闻视频字幕文字定位方面,本文在定位和验证的两级框架下,采用了一种基于边缘的字幕文字检测定位算法。检测定位阶段充分利用字幕文字的边缘信息,经视频帧边缘提取,区域过滤等步骤获得候选字幕文本行;验证阶段采用基于区域边缘相似度的方法,对当前帧和其相邻帧相应字幕文字行区域计算边缘相似度,检测确认定位的字幕文字行。在新闻视频文字跟踪增强方面,考虑到我们针对的都是新闻视频中的静态的字幕文本,本文采用了一种基于块匹配和区域边缘相似度的跟踪算法。为了提高跟踪速度,本文应用了二分查找的方法对字幕文本进行跟踪,跟踪过程可以大大减少定位的代价。在跟踪过程中,本文还利用多帧融合进行图像增强。在新闻视频文字分割方面,本文先利用大津法对跟踪得到的增强图进行二值化,然后采用了一种基于水平,垂直投影直方图的文字分割算法,可以快速准确地从背景相对简单的新闻视频字幕帧的字幕区域中分割出文字。最后,在以上工作的基础上,本文实现了一个简单的识别系统。系统是一个分为粗分类,细分类和识别三个阶段的三级识别系统,采用了相关匹配方法作为识别方法。选择了粗网格特征,粗外围特征和局部笔划方向密度特征作为分类特征。
其他文献
随着多媒体通讯技术的不断发展,人们对语音通讯质量的要求越来越高,基于Internet的一对一的语音通讯已经不能满足用户的需求。而目前存在的多人语音通讯都存在延时大,音质差
以大型企业应用系统、云计算等为代表的大规模复杂系统日益广泛,性能调优、性能管理和能力规划成为这类系统部署运行过程中面临的重要挑战。论文在实现TPC-App测试基准(事务
互联网是广大残疾人获取信息、就业、娱乐的主要途径,然而目前绝大多数网站在最初设计实现时只关注普通人的用户体验,忽视了许多无障碍设计细节,使得残疾人群在访问时困难重重。
随着现代社会工业化和信息化的迅猛发展,条码技术的应用越来越广泛,对其防伪性的要求也越来越高。PDF417条码是目前使用最为广泛的条码技术,数字水印技术是一种可以有效提高
在研究网络拓扑结构时,运用图论来构建模型是常见的方法。而路径嵌入和泛圈性是研究网络拓扑结构容错性时不可回避的内容,从而越来越受人们的关注。提高网络的容错性能够改善
随着互联网信息以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料,目前全世界数字信息量每年以数量级1018。字
近年来,随着我国高等教育的不断发展及学校对外交流活动的日益增多,给校园安全带来了很大影响。为加强“平安校园”的建设,各高校采取保安巡查、安全制度制订等措施,但是由于
随着互联网技术的发展,子空间学习已经成为机器学习、数据挖掘、模式识别等领域的研究热点。高维数据难以使模型得到理想的学习效果。子空间学习旨在通过计算高维空间中样本
纤维缠绕成型的玻璃钢制品作为一种新型材质,是由缠绕机缠绕成型后,用树脂胶固化、脱模后形成的产品。与传统金属材质相比具有许多突出的优点和优良性能,因此被广泛地应用到
随着互联网的不断发展和日益普及,互联网上的信息也是增长快速,全世界的网页数量也高达40亿左右,在我国的数量也超过了3亿左右,与此同时搜索引擎的作用越来越显的极为重要,但