基于DCT域的视频字符检测算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:vuittonwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动地抽取图像/视频的语义内容在图像/视频检索中具有重要意义。在基于内容的视频检索和浏览中,可供利用的一个重要线索是视频中所包含的字符。因此,自动地检测和识别字符是抽取视频语义内容的基础和关键所在。目前,针对视频图像字符检测和识别在象素域做得比较多,并取得了一些有应用价值的进展。然而,视频由于数据量大,通常以压缩后的视频流形式进行存储和传输。若将视频流完全解码后还原为一幅幅静止图像,再进行字符检测和识别,计算量大,也严重地影响了处理速度。若在压缩域中对视频流直接处理,还原部分信息,然后进行字符检测可以减少完全解码的时间,同时处理数据量也更少,有利于提高实时性。本文结合现有的压缩域视频字符检测技术,提出了一种基于DCT域的视频字符检测算法。它利用压缩视频流中字符纹理所具有的方向性和字符通常都成行/列分布的特点,通过一种新的自适应阈值分割,有效地将字符块与非字符块区分开来,并进一步利用形态学方法进行平滑和滤波并对候选文本区进行验证,最后,通过水平和垂直方向投影,准确地定位字符区域。实验结果表明,该算法在复杂背景下也能取得较高的检测率,具有良好的鲁棒性和实用性。同时,针对已定位好的字符区域,提出了一种融合图像直方图统计信息与边缘特征的二值化方法用于分割字符。该方法先利用梯度算子检测出图像的边缘点,接着选择每个边缘点8邻域内具有最高、最低灰度的点并分别计算这些最高、最低灰度点的均值作为高、低两个阈值,然后统计图像中灰度在这两个阈值之间的所有象素的直方图,最后将这个直方图作为参数利用Otsu方法对图像进行二值化。此二值化方法时间复杂度较低,融合了全局直方图信息与边缘信息,取得了较好的分割效果。
其他文献
互联网技术的飞速发展给人们的日常生活带来了极大的便利,与此同时巨大的信息量使人们迷失在信息的海洋中,造成人们需要浪费较多的时间找到自己需要的信息。随着Web2.0的迅速
随着网络通讯技术的迅猛发展与多媒体数据数字化的日益普及,使得信息的传递变得非常便捷,但与此同时,数据的安全性问题也逐渐暴露出来。特别是信息隐藏技术的广泛应用及其快
随着互联网技术的飞速发展,全世界各行各业,不同领域的人们无论是在工作、学习、还是生活上的方面面都已经离不开网络。移动网络业务在这个快节奏的时代,格外受世人瞩目,它的
随着互联网规模和重要性的不断增长,在线商品评论的数量和影响日益剧增。在线商品评论通常是消费者做购买产品或服务的决策时十分重要的影响因素,也是确定这些产品或服务民意
Web服务在松散耦合的、与语言和平台无关的应用中被越来越广泛的采用,随着Web服务给人们带来便利的同时,也面临着安全问题的巨大挑战。安全问题不仅是制约Web服务发展的主要瓶
入侵检测(Intrusion Detection,ID)是信息安全不可缺少的技术之一,已成为近年来网络安全技术的新热点。现有ID大多基于规则检测,存在检测速度慢,检测准确率不高,误报、漏报率
网格技术是现在国际前沿性的研究课题,随着网格技术的发展,网格开始应用于各种领域,其中最重要的一种就是面向数据密集型应用而产生的数据网格。数据网格可以对异构的、分布
视频监控是安全防护的重要组成部分,是一种防范能力较强的综合系统。视频监控凭借着直观、准确、及时和丰富的信息内容而广泛的应用于许多场合。该技术广泛地应用于各行各业,
模糊限制语是指一些“有意把事情弄的模模糊糊的词语”。由模糊限制语引导的模糊限制信息表达不确定的、含糊的或推测的观点。生物医学文献中含何许多模糊限制信息。在生物医