论文部分内容阅读
随着社会的快速发展,一些潜在的矛盾冲突也伴随出现,异常声音逐渐引起人们的思索和重视。传统安防迫切要求视频监控引入对异常声音的判别,以提高智能性。长久以来,异常声音的识别研究发展缓慢,远远落后于其它声音的进展,主要是人们找不到刻画异常声音本质的特征参数。借鉴人耳听觉特性在听音辩物上的优势,越来越多模仿人耳听觉感知的特征参数被提出,在信息科学领域已显示出巨大发展潜力。本文针对采集的停车场几种典型异常声音,重点研究了一种基于Mel频率倒谱系数(MFCC)及其改进的特征提取方法,并通过支持向量机完成各类异常声音的识别分类。本文主要研究内容有:1、对采集到的异常声音信号预处理,主要包括归一化、预加重、分帧加窗。目的是消除采集过程中声音样本之间数值量级的差异,避免音量忽高忽低对整体声音质量造成的影响,突出各个样本的自身特征。由于异常声音是非线性非平稳的,要经过加窗分帧处理得到其短时信号。为了减少特征提取和识别阶段中的运算量,进行端点检测处理来确定异常声音信号的起始点和结束点。2、针对预处理后的异常声音信号,提取基于Mel频率的倒谱特征参数。在特征提取过程中,利用人耳对声音频率感知的特性,构造一组类似耳蜗作用的三角滤波器,其作用是将每帧声音信号频谱能量由线性频域映射到Mel频域。然后对三角滤波器输出的非线性频谱进行对数变换,最后通过离散余弦变换映射在倒谱域上,完成MFCC特征参数的提取。3、在求取MFCC过程中,针对傅里叶变换有限的时频分辨力以及计算过程中产生谐波干扰的缺陷,采用小波变换进行相应的改进,使得提取的特征参数更加符合人耳听觉特性,改善对噪声的鲁棒性。同时,在特征提取过程中,引入经验模态分解法,挖掘更多的动态特征,从而获得复合改进的MFCC特征提取方法。4、完成异常声音的分类识别。根据对异常声音提取的特征,用支持向量机完成异常声音模型的建立和测试。在训练和测试阶段,通过组合多个二分类SVM来实现多分类识别。根据参数对异常声音模型泛化能力大小的影响,选择合适的核函数类型,从而得到最佳的训练模型,完成对测试样本所属类别的确定。