超低质量视频字幕识别方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:gengyunshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,海量视频数据中包含着丰富的信息,对于这些视频进行分析处理的需求也越来越多。有的视频其视频质量非常低,其中字符大小极小,而且受到噪声的干扰,本文中称为“超低质量视频”。传统的视频字符识别技术对于此类视频难以适用,因此亟需针对超低质量视频的字符识别方法进行研究。本文中识别的视频字符为固定位置的字幕文本,且字幕没有复杂的背景。本文的最终目标是构建一个高性能和高可靠性的视频字符识别系统。基于上述目标,本文首先提出了基于模板的字符匹配识别算法,直接使用图像的灰度值特征计算待识别字符与模板的相似度。取相似度最高的模板的类标签作为待识别字符的识别结果。使用视频多帧融合方法作为识别预处理过程,实验表明预处理过程有效减少了视频中冗余帧。其次,为了提高识别自动化程度,提出了基于可信度的视频字符区域自动匹配算法。视频字符区域匹配算法对于每一帧进行处理,分别使用各个已定义的字符区域识别同一帧后,计算识别结果的平均可信度,选择可信度最高的字符区域作为最终结果。为了减少用户建立模板库时的工作量,本文提出了基于半监督学习思想的模板库自动生成算法。通过借鉴自学习方法,我们首先生成已知标签的标准字模,接着用标准字模对于视频中待识别字符进行相似度分布的统计。挑选各个字模相似度分布中的最大的个字符加入模板库。从而达到完全自动生成识别模板库的目的。模板库自动生成算法在未知字体的情况下,由于先验知识过少,模板库会有错误产生,导致识别准确率下降。针对此问题,我们提出了后处理纠错算法。包括基于自回归模型的自动纠错算法和人工反馈纠错算法。自回归模型可以对于连续平稳变化的时间序列进行预测。我们使用自回归模型检测识别数值型变量中的突变,并进行纠错。而人工反馈纠错则是用户直接对于识别错误进行纠正,将纠错的图片与标签直接加入模板库,同时纠正模板库中的错误。在纠错后使用新的模板库更新识别结果,迭代纠错多次使得识别准确率越来越高。经过实验,使用上述提出的一整套识别算法,在经过3轮迭代纠错后,对于测试视频的平均识别准确率达到了98%以上。最后本文设计并实现了一套视频字符识别系统,系统集成了我们上述提出的算法,具有友好的人机交互界面和高可靠性。
其他文献
随着社会的发展,目前的互联网所暴露出来的弊端已日益加剧,诸如IP地址不足、安全性弱、兼容性差等,上述缺陷已经影响到用户对网络业务的使用。因此,国外内针对目前互联网的缺陷,大
大数据时代的到来,从海量数据中提取有价值信息对企业,政府等部门至关重要。本文主要研究内容是大数据下的OLAP分析。Hadoop——集分布式文件存储HDFS和并行计算模型MapReduce
TTCN-3是欧洲电信标准协会(ETSI)于2001年推出的一种测试描述语言,可用来描述对交互式系统的黑盒测试。通过使用TTCN-3,能够将测试的抽象描述和测试具体的实现分离,提高测试
随着计算机及网络技术的发展,基于网络的学习方式越来越普遍,网络学习系统也大量地被开发出来。然而目前的网络学习系统普遍存在:交互性不强,不能进行个性化教学,学习缺乏引导,缺乏
网络化通信是PLC(Programmable Logic Controller)的发展方向,而主从通信是PLC的基本通信方式,大量地应用在工业现场设备等控制系统中。主设备通过读取或写入从设备内存量,达
频繁模式挖掘是数据挖掘中的一项重要工作,也是关联规则挖掘的一个关键步骤,可以应用于诸如分类、聚类、预测等数据挖掘任务中。目前,关联规则挖掘结果多以在线交互方式导出,
作为世界上人口最多的国家,加强计划生育和人口管理现代化,对于我国各项事业的发展至关重要。利用先进的计算机网络技术,建立联网的育龄妇女服务与管理信息系统,实现育龄妇女
近年来,无线传感器网络伴随着微电子技术、无线通信技术和网络技术的发展而产生,其无需基础设施、具有自组性、随机部署和多跳的特性使其应用越来越广泛,涉及到军事、商业、环境
随着网络经济的兴起,电子商务得到了快速的发展与应用。因而也促进了社会对电子商务方面人才需求量及其素质要求的提高。这就对电子商务人才的产地之一:学校,提出了更高的要
伴随着互联网的快速发展与普及,越来越多的个人用户在使用网络应用的同时产生大量的数据。而云技术的发展也使得更多的企业用户选择将数据服务迁移到云中。在电子商务、社交