论文部分内容阅读
声音承载着关于我们日常环境和发生在其中的物理事件等大量信息。基于音频内容搜索、语音识别、机器人、无人驾驶以及智能监控系统等,都是使用声学信息识别其环境中的活动。声学事件检测是在测试音频记录内标记时间区域并产生符号描述的过程,使得每个注释给出时间戳和声音事件标签。由于各类声音事件和声场中的时频特性变化较大,静止的背景噪声,声音事件的重叠等问题受到研究界的高度重视并进行了许多评估活动。面对以上问题,本文对声学事件检测的方法展开了研究。为实现声学事件的检测并提高声学事件检测的准确率,本文分别采用MLP和GMM分类器对六种声学事件进行分类并检测,MLP在平均事件F-分数高于GMM分类器4.6%,错误率相比GMM降低2%。通过实验结果对两种分类器做相关的比较,分析MLP和GMM在对声学事件检测问题上存在的不足,并证明基于监督学习的神经网络在固定数据集的声学事件检测任务中优于非监督学习的GMM聚类方法。为进一步对声学事件检测方法进行改善和提高,本文提出了基于CRNN-HMM的声学事件检测分类方法。在特征提取阶段,对音频提取MFSC特征,在声学分类器的构建阶段,将卷积循环神经网络应用于语音信号的频率维度上进行声学建模,隐马尔可夫模型用来处理时间维度上的关系,并且应用卷积循环神经网络的长时间上下文依赖状态处理相邻语音帧之间的相关性序列,即通过CNN、RNN和HMM三种方法的结合去对声学事件进行检测分类。本文在CNN中采用GLU作为激活函数,并且在音频分类中使用GLU将Attention机制引入到神经网络的所有层中,GLU可以机制控制着神经网络中的信息流动,通过这种方式,网络将学习关注音频事件并忽略不相关的声音。基于不同场景的背景音频和不同声音事件的混合音频数据的实验结果表明,当使用CRNN-HMM模型时,平均事件F分值比基线系统的MLP方法提高7.97%,与Bi-LSTM的方法相比平均F分值提高8.17%,错误率降低20%,在与混合模型DNN-HMM相比错误率提高了4%,F分数提高了3.67%。