论文部分内容阅读
声音信号在生活中无处不在,人们一直在尝试着合理地将其利用。随着深度学习技术的发展,声音信号处理的能力在不断提高,给人们的生活带来了诸多便利。声学场景分类作为信号处理的新兴研究领域,近年来受到越来越多的关注,其已经被有效应用在情境感知等设备上。在生活中,录音设备的种类多种多样,由于这些设备信道的差异,导致即使在同时同地,它们所录制到的音频数据也可能存在不同。此外,由于多种原因采用不同设备所获得的声音数据量也可能不同,因此存在数据不均衡的问题。信道差异及数据不均衡的影响给声学场景分类任务的研究带来很大的困难。本文重点研究多信道不均衡数据影响下的声学场景分类问题。首先,提出基于FBank特征的卷积网络声学场景分类方法,对所有数据不区分设备地提取FBank声学特征,使用卷积神经网络对特征进行分类,使用交叉熵作为模型的损失函数。该方法作为本文的基线系统。随后,提出基于信道无关嵌入特征的声学场景分类方法。不同设备在同时同地录制所得到的平行数据对包含完全一致的语义信息,而差别仅为信道不同。考虑到从原始音频数据提取的FBank特征中会包含设备的信道信息,其与声学场景无关且会影响模型的分类准确率。因此,在基线系统的模型中,选取最后一层卷积层的输出作为音频数据的嵌入特征,使用均方误差度量平行数据对间嵌入特征的差异,均方误差和交叉熵的加权和作为模型的损失函数。相比于基线系统,该方法的分类准确率在所有设备上均有提高。最后,提出基于迁移学习的多信道声学场景分类方法。对数据量充足的设备信道下的场景进行建模,学习到足够的知识,以得到性能优越的嵌入特征提取网络,以及对嵌入特征的分类网络。将得到的特征提取网络复制后,使用迁移学习方法对数据量少的设备信道下的场景进行训练,以更好地提升模型对数据较少设备信道下的场景分类准确率。训练时并行输入平行数据对,只训练针对少量数据的嵌入特征提取网络,而其他网络参数固定不动,使用均方误差度量平行数据对嵌入特征的差异,使用KL散度度量分类网络对平行数据对嵌入特征预测的概率分布的相似性,均方误差、KL散度、交叉熵三者的加权和作为模型的损失函数。相比于基线系统,该方法明显提升了数据量少的设备信道下的场景分类准确率。