论文部分内容阅读
音频监控技术是公共场所安全监控的有力手段之一,实现音频监控技术智能化的关键是自动检测并识别出公共场所的异常事件。公共场所异常声音事件的发生常常伴随着爆炸声、枪声及尖叫声等异常声音,这些异常声音与公共场所的背景声音重叠在一起,与连续的背景声音相比,往往是零星且孤立存在的,异常声音通常声调较高,强度较大。传统的异常声音识别方法往往局限于使用语音信号处理的特征,且大多利用异常声音样本建立分类模型。由于部分异常声音与语音信号的机理特征不同而使得所提特征对异常声音信号性能描述不佳,并且现实生活中某些异常声音样本较难获取而模型训练样本不足,使得训练模型的分类边界不准确,导致识别结果不好。因此,本文针对公共场所的异常声音检测与识别的上述问题进行研究,主要工作总结如下:(1)提出一种无交叠统计均等梅尔特征。该特征采用无交叠统计均等矩形滤波器组对梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)进行改进得到,首先为了使获得特征的信息熵最大,结合异常声音梅尔频率域的统计幅度谱,建立一个无交叠统计均等矩形滤波器组;然后,利用该滤波器组对输入声音信号进行滤波处理获得信号不同频率成分的能量信息,作为输入信号的特征;另外,为进一步提升特征的鉴别能力,求取各频率成分能量的差分特征;最后,利用规范化多特征加权融合策略将信号的能量特征和差分特征进行融合,形成最终的无交叠统计均等梅尔特征向量。(2)基于无交叠统计均等梅尔特征和支持向量机(Support Vector Machine,SVM)分类器,完成了一种异常声音识别算法设计。首先采用双门限端点检测方法提取有效的声音事件,再获取声音事件的无交叠统计均等梅尔特征,最后采用SVM分类器对特征进行分类,实现异常声音识别。为了验证该算法的性能,利用智能化信息技术及系统实验室(IITLAB)建立的音频监控数据库中的4类异常声音、4类场景声音以及它们的合成声音片段进行了实验。(3)构建能级迁移状态机,由此提出一种能级迁移概率特征,并建立基于能级迁移概率特征和高斯混合模型(Gaussian mixture model,GMM)背景建模的异常声音检测算法框架。首先,基于异常声音与场景声音信号强度和方差的统计特点,建立能级迁移状态机,并根据不同状态间的转移概率生成了能级迁移概率特征向量。然后,采用GMM模型对公共场所的不同场景建立相应的背景模型。最后,通过一帧信号与背景模型匹配的似然度直接判定一帧信号的类型,并利用连续多帧信号的信息判定其最终类型,从而检测出异常声音事件。为了检验该算法检测异常声音的有效性,基于IITLAB实验室的音频监控数据库进行了实验。实验结果表明,该算法在不同信噪比环境下均能有效检测出公共场所的异常声音,随着信噪比降低检测性能下降。在真实环境下,除了枪声,其它三类异常声音的误检率和漏检率均在5%以下,且该算法对于四类异常声音的检测性能相比于其它相关方法更优。