论文部分内容阅读
语音增强是语音信号处理中的一个重要研究方向,在远程通信、助听设备、智能家电、人机交互以及智能会议系统中有着广泛的应用。语音增强算法一般利用干净信号与噪声在结构特性上的差异,采用数学方法将观测到含有噪声的语音信号变换到新的域。在这个新的域内,语音和噪声的区分性变得更加明显。具体而言,干净语音对应的系数往往是稀疏分布的,而噪声对应的系数则是随机分布的。因而只需简单的数学操作就可以实现语音和噪声的分离。然而现行的语音增强系统仍然有诸多问题没有解决。比如说,在很多算法中,噪声通常被假设为近似平稳的。这意味着与干净语音相比,噪声幅度的变化速度相对缓慢。在噪声不满足平稳性假设时,很多语音增强算法会面临性能损失,甚至会导致明显的语音失真。为此,研究者们提出将多个相同型号的麦克风按照一定形状组成麦克风阵列,进而发展出了丰富的多通道语音增强算法。此外,真实场景中往往还存在着混响和回声等,这给多通道语音增强算法带来严峻的考验。本文基于干净语音信号在不同变换域中体现的稀疏特性,提出了几种行之有效的语音增强算法,主要工作可以概括如下:首先,针对在时域呈现稀疏和非平稳特性,且在时间上随机分布、幅度任意大的冲击噪声,提出一个基于单通道的鲁棒的时频分解模型,将受噪声污染数据中的干净语音成分投影到一个离散余弦变换字典上,将冲击噪声投影到一个单位矩阵字典上。通过控制两组投影系数的稀疏度比例,并采用一种改进的正交匹配追踪算法,可以优化得到两种成分对应的稀疏投影矢量,进而实现对干净语音成分的重构。通过控制稀疏度的比例和重构误差的大小,可以控制语音失真和噪声残留之间的平衡,从而取得最佳的听觉效果。其次,针对在实际环境中存在的方向性、无方向噪声,提出对多通道音频数据流做并行化处理。采用一个固定长和宽的矩形窗口,在多通道音频流上按照一定的速度均匀滑动。在每个特定时刻,只针对窗口选取的数据矩阵的行、列作线性变换,从而实现空时协同滤波。我们采用迭代的方式分别更新时间滤波器矩阵和空间滤波器矩阵。基于最小均方误差准则,首先固定时间滤波器,更新空间滤波器;然后固定空间滤波器,更新时间滤波器;整个过程在两到三个循环即可收敛。最终,可以一次性得到对应所有通道的增强之后的语音数据。再次,为了充分利用多通道观测数据中携带的时间和空间信息,先对每个通道输出的音频数据流进行分帧,然后把这些帧重排为一个矩阵。更进一步,将对应于各通道音频流的矩阵堆叠成一个三阶张量,并设计三个滤波器(即帧内滤波器,帧间滤波器,空间滤波器),对该观测张量进行空时协同滤波。基于最小均方误差准则,采用一种循环迭代的方式交替更新三个滤波器,直到整个过程收敛。该方法可以一次性地估计得到所有通道内的干净语音数据。最后,基于上述三阶张量模型,我们提出将张量分解的方法用于多通道语音降噪。我们把含噪声的观测语音张量投影到设计好的正交基矩阵上,这包括通用基矩阵、有监督基矩阵、无监督基矩阵。通用基矩阵为三维离散余弦变换基矩阵,有监督基矩阵可以从预先提供的干净语音学习得到,无监督基矩阵则从含噪声的语音张量中自动推理获得。投影系数被包含在一个具有同样尺寸的核心张量内。根据最小化统计风险准则,可以设计出一种最佳的门限阈值;将核心张量中幅度低于该阈值的元素全部置零,即可实现噪声的抑制。