论文部分内容阅读
音频场景识别是指通过分析音频信号的特点识别出对应的场景信息。目前音频场景识别系统的主要问题在于测试样本分布与训练集样本分布之间存在差异,在此情况下使用传统的学习方法不能得到满意的识别率。为了解决这一问题,本文引入迁移学习的理论和方法。本文采用高斯直方图作为场景特征,通过迁移学习方法缩小训练集和测试集样本分布之间的差异,然后使用支持向量机(Support Vector Machine,SVM)进行识别。本文研究了当前主要的两类迁移方法:样本迁移和特征迁移。在样本迁移方面研究了样本选择偏差,改进了一种与样本选择偏差类型无关的去除偏差的方法:基于样本选择偏差的样本平衡化(Re-Balancing by SampleSelection Bias,RBSSB),并结合核密度估计的思想,通过重新选择训练样本来去除样本选择偏差,从而对齐训练样本和测试样本之间的边缘概率分布。在特征迁移方面研究了迁移成分分析(Transfer Component Analysis,TCA)并对其进行了改进,在TCA的基础上加入最大化训练集的类间散度和最小化训练集的类内散度的优化项,提出了判别式迁移成分分析(Fisher Discriminant TransferComponent Analysis,FDTCA),使得迁移后不同类别的场景特征具有更好的区分性。并且提出了线性TCA,大大减少了特征迁移的计算量。实验结果表明:与不进行迁移相比,RBSSB和TCA均能提高音频场景识别的准确率。最后根据两类迁移的特点对二者进行了融合,实现了基于RBSSB和TCA的音频场景识别系统。实验表明,融合后的系统识别率比采用单一迁移方法的识别率更高。