论文部分内容阅读
音频信号作为生活中常见的蕴含特定信息的载体,已经成为人类获取信息以及传播信息最为有效的途径之一,因此被普遍的应用在生物医学、工业生产以及农业监管等领域中。伴随着经济水平的日益提高,为了营造更为稳定和安全的社会环境,就需要构建成熟的立体化社会治安防范体系。监控系统则成为了保障和维护社会安全的重要手段,而传统的视频监控由于自身的局限性,其实际监控的性能往往并不理想,因而音频监控受到了极大的关注,充分利用音频信号中所携带的信息来辅助视频监控能够完善现有的监控体系。音频事件检测是音频监控的核心和关键。因为环境声音更加复杂多样化且混乱无规律性,传统的声学模型(支持向量机、高斯混合模型和隐马尔可夫模型等)由于缺乏建模能力,导致存在明显的缺陷。近年来,深度学习被成功的引入到音频事件检测领域中,有效的改善了检测的效果。因此,本文在对异常声音特性分析和公共场所的环境噪声进行建模的基础之上,对卷积神经网络在异常声音识别中的适用性及其识别性能进行了研究,并且针对网络模型的维度变化在噪声鲁棒性以及误差收敛速度等方面的影响进行了详细的比较。文中主要开展的工作内容如下:(1)公共场所的声学环境下音频信号前端处理算法研究。通过对公共场所的环境噪声成分进行分析,得出该声学环境下噪声的分布特点和时频特性,并对公共场所下噪声和异常声音的混合方式进行建模。在此基础上分别确定了音频信号的端点检测算法以及声音去噪算法。在声音去噪的部分,对适用于公共场所下的基于改进的自适应滤波器的异常声音去噪方法进行了研究,通过实验表明,该方法能够有效的抑制噪声,即便在低信噪比下去噪效果仍然十分显著。在端点检测的部分,实验性的分析了基于短时能量和过零率的双门限法与基于自适应子带谱熵法两种端点检测方法,得出自适应子带谱熵法在噪声环境下具有更好的稳定性与准确性。(2)具有良好标注的训练数据相对稀缺问题的解决方法的研究。获得高效准确的声学模型需要庞大的训练数据来支撑。由于训练数据资源匮乏,使得声学模型研究受到了极大的限制,本文提出了通过数据增强方法来解决带标签的异常声音样本稀缺的问题,在保证样本标签的实际含义不发生改变的前提下,通过多种方式进行适当转换从已有的训练样本中扩增出新的数据。采用数据增强之后的训练样本进行学习的声学模型对未知因素具有更好的鲁棒性和泛化能力,能够在公共场所这种复杂环境下进行更好的推广。(3)基于卷积神经网络的异常声音识别的研究。通过和高斯混合模型、BP神经网络进行比较,分析和验证了卷积神经网络在异常声音识别任务中的适用性及其识别性能。同时针对音频信号的一维特征对卷积神经网络的结构进行变化和调整,将其与传统的卷积神经网络在识别能力、噪声鲁棒性和误差收敛速度等方面进行比较。实验结果表明,经过简化的卷积神经网络在误差收敛速度方面优于传统卷积神经网络;在识别性能方面,当处于噪声干扰强度大的环境下,传统卷积神经网络性能较好,但是噪声干扰强度小的环境下,适用于一维特征的卷积神经网络性能则优于传统卷积神经网络。(4)基于卷积神经网络的异常音频事件检测系统的研究和实现。在对音频信号前端处理以及音频事件检测算法研究和归纳的基础之上,实现了根据噪声估计来匹配合适的卷积神经网络模型结构的异常音频事件检测系统,该系统在Matlab平台下进行开发,主要具有音频事件检测功能,同时还提供了音频采集和输入、前端处理、模型训练等相关功能模块。在实际测试过程中,该系统具有良好的识别效果。