论文部分内容阅读
作为最常见的一种信息载体,声音中承载着丰富的类别信息,并且由于声学传感器具有隐蔽性好、价格低廉和不易受电磁干扰等优点,声目标识别对于安全监督、军事侦察、生态监测以及智能家居等领域都具有重大的意义。声目标识别过程分为特征提取和分类两个部分,现在主流的特征提取方法以人工提取为主,对个人经验依赖大。此外,基于传统的分类器难以对复杂的声音目标进行建模,无法解决复杂的分类问题。深度学习作为一种多层次的智能感知算法,能够充分挖掘目标的类别属性与深层特征。为此,本文提出将深度学习方法应用到声目标识别中,展开对声音特征提取与分类器设计的研究,以期为声目标的识别研究提供一种新的方法。本文以生活中常见的脚步声、雷声、钟声以及飞机声等非语音声目标为主要研究对象,使用音频文件作为数据集。本文在音频识别基本原理的基础上,设计了基于深度学习的声目标识别总体方案。首先,从梅尔滤波器设计和离散余弦变换两个方面出发设计了对数梅尔特征提取方法,该方法对声目标功率谱图经过一组高阶等高梅尔滤波器组后的输出取对数,得到的特征一方面隐含了人类的非线性听觉特性,另一方面加强了高频部分。其次,设计了一种多通道特征提取方法,用长度分别为512、1024和2048个采样点的窗来截取声信号,三种不同窗长的特征组合起来得到包含信息更为完整的多通道声特征。接着设计了用于深层特征提取的卷积神经网络模型和残差网络模型。最后设计了全局平均池化与深度神经网络相结合的分类模型,分析了一层全局平均池化层与不同结构的全连接神经网络组成的分类器的性能,全局平均池化分类器在保证识别准确率的情况下能减少训练参数。本文将数据集按照80%、10%和10%的比例分割成训练集、测试集和验证集三部分,以对数梅尔特征作为输入特征,基于不同窗长的多通道深层特征提取模型作为特征提取模型,全局平均池化层与两层直型深度神经网络作为分类器,对十类随机声目标在测试集上得到了90%的准确率,在验证集上得到了87.16%的识别精确率、85.00%的召回率和84.85%的F1值,本文所提方法对于随机声目标具有良好的识别效果。