论文部分内容阅读
近些年来,作为声音识别中的一个新兴的研究方向,“声音事件识别”因其广泛的应用前景,越来越受到研究学者们的关注。通过对声音事件,例如敲门声、掌声、脚步声,甚至鸟鸣声等,进行识别,能够感知所处的环境,并侦测出其发生的变化。因此,声音事件识别可以用于无人看守的安全监管、医疗救助,以及机器的智能化,同时也为实现更好的人机交互体验提供了可能。一方面,在几十年的发展过程中,研究学者们针对声音事件的识别任务,提出了一系列的特征提取方法和相应的识别系统,取得了突飞猛进的发展和进步。另一方面,随着人工智能技术的不断发展和突破,作为深度学习理论内容的一部分,深层神经网络因其强大的信息抽取和建模能力,在模式识别,自动控制,智能机器等诸多领域取得了显著的成就,尤其是在语音识别,图像理解等领域获得了突飞猛进的性能提升。目前声音事件识别系统在噪声环境较弱的情况下,识别效果很理想。但受声音事件自身特性的影响,随着噪声强度的不断增加,相应的识别效果普遍较差,未能取得令人满意的识别性能。为此,本文研究的重点和方向是,利用深层神经网络强大的对于信息提取和特征抽象的能力,提出能够对复杂噪声鲁棒的有效特征表示方法,进一步提升声音事件识别系统在噪声环境下的识别效果。主要包括以下几个方面内容:首先,提出了一种时频域非线性降采样的特征表示方法。由于传统的二维频谱图特征同时包含有时、频域的信息,为了使得到的频谱图特征具有更强的可区分性,本文提出了一种数据驱动式的时域和频域非线性降采样策略。频域上,通过分析噪声和不同种类的声音事件在不同频段上分布的差异性信息,确定相应的非线性降采样边界,对频谱图进行频域的非线性降采样。另一方面,在时域上,利用斐波那契数列来获取频谱图中不同长短的时域帧信息,并进行非线性降采样的操作。经过上述不同非线性降采样操作后得到的特征,将被送入相应的深层神经网络中进一步提取高层的抽象信息,并最终用来对声音事件进行识别。实验结果表明,利用频域方差非线性映射的特征表示方法,能获得较优的性能提升,特别是在强噪声的环境下。其次,提出了一种基于神经网络的谱图时频域融合的特征表示方法。在将耳蜗图特征引入声音事件识别的基础上,尝试利用深层神经网络对两种不同的时频二维特征图进行拼接和融合,获得更有效的特征表示方法。基于不同的神经网络,提出了两种不同的特征融合策略,即文中提出的“双通道特征融合”和“底层特征融合”。其中,双通道的特征融合方法利用了卷积神经网络的特殊结构,将频谱图和耳蜗图同时送入卷积神经网络的不同通道中,经过卷积操作后再进行特征的拼接;而底层特征融合的方法是,在将不同谱图特征送入神经网络之前就进行拼接融合。实验结果发现,经过特征融合后的系统性能有显著的提升,且基于卷积神经网络的底层特征融合的系统性能更优。最后,在前两部分研究的基础上,提出了基于神经网络的谱图多分辨融合的特征表示方法。从综合利用谱图信息的局部和全局特征的角度出发,同样采用上述两种不同的特征融合策略,对不同分辨率的谱图特征进行拼接融合。为了获取不同分辨率信息的谱图特征,我们采用不同的窗长和窗移对原始的音频信号进行处理。若窗长和窗移较短,则谱图特征中的时域分辨率较高,但频域的分辨率则较差,可以获得较好的局部信息:反之,则能在较大的窗长和窗移下获得较为完整的全局信息。这两种不同分辨率的谱图特征,彼此具有互补性,通过融合能更好对声音事件进行区分和识别。实验结果也证明,利用不同分辨率谱图特征融合的方法可以进一步提升系统的识别准确率,并在强噪声环境下表现优异。