论文部分内容阅读
随着计算机网络和多媒体技术的迅猛发展,数字视频在人们的生活中成为不可或缺的信息载体。但是在这些视频中,还夹杂着一些不良内容,它们给社会带来相当大的“不良信息冲击”。因此,视频的内容安全在社会生活和国家安全等方面都占据了非常重要的位置。视频语义分析是视频内容安全的重要研究内容。作为视频的一种高级语义线索,视频中的音频所包含的信息对于理解视频的内容是很有价值的。如何对各种音频进行分类,并提取语音部分进行语音识别对视频语义分析具有重要意义。本文提出了一种应用于视频语义分析的音频分类和语音识别框架。首先,采用基于规则和基于支持向量机(SVM)的音频分类方法,将音频帧分为静音、语音和音乐。根据音频类别信息,设计切分算法,对相同类型的音频进行聚类,得到音频分割信息。在音频切分基础上,本文使用Sphinx工具包构建了一个自动语音识别系统,对语音段进行语音识别,提取视频脚本信息。对TRECVID 2005中的视频进行实验,实验结果表明了本文提出的分析研究方法的有效性。