论文部分内容阅读
语音是自然界中最普遍和便捷的交流方式之一,同时也是一种重要的信息传递手段。可是,在实际的环境中,背景噪声和干扰的存在不仅降低了语音的可懂度,有时甚至会丢失语音的部分信息,从而会对后续的应用带来一系列的挑战,例如会议转写记录系统,语音编码和自动语音识别等。因此,在嘈杂的实际环境中,语音增强这一课题的研究就显得极其重要,这也是语音信号处理中很重要的一个预处理环节。语音增强指的是当语音信号受到噪声或者干扰影响时,在保证语音信号尽可能完整的前提下最大程度的抑制或者削弱噪声和干扰,即从接收到的混合带噪语音信号中获取尽可能纯净的语音信息,从而提高这些受污染语音信号的质量以及可懂度。根据麦克风数目,可以将语音增强算法分为单通道和多通道语音增强两大类。传统的单通道语音增强系统因相对容易实现并且有一定降噪效果,在工程实际中被广泛应用。但当噪声或者干扰较大时,单通道系统可能会引入“音乐噪声”或者导致语音失真。而对于多通道语音增强算法而言,除了可以获取麦克风阵列接收语音信号的时域-频域信息,同时可以利用多麦克风信号的空间信息,从而取得更优的降噪效果。大多数现有的多麦克风降噪算法都是直接利用接收到的带噪语音信号的频域-空域或者时域-空域的相关性。然而,很少有关注频域-空域-时域三维联合的相关性。在本文中,提出将接收到的多麦克风语音信号表示为三维张量形式,联合利用语音信号时域-空域-频域的多维信息将信号建模成一个三维张量。接着,通过交替最小二乘法等张量分析工具建立多模滤波器,设计时域、频域与空域滤波器组对接收的含噪语音信号依次进行滤波操作,对噪声进行抑制,得到相对纯净的多通道语音信号。为了提高多维滤波算法的性能,进一步把该方法和传统的波束形成算法相结合。先在高阶张量框架下对输入的带噪信号进行降噪预处理,以较好地消除背景噪声。其次,将获得的预降噪的多通道语音信号再通过波束形成算法,进一步消除有方向性的干扰。这两种方法的结合不仅对麦克风的自噪声等非方向性噪声有很好的抑制效果,同时可以很好地抑制方向性干扰,更符合真实使用场景。在仿真环境和真实声学系统下测试了上述所提出的框架,分别在主客观评价指标下进行了性能比较。实验结果表明,所提出的框架在主观和客观评价指标下均取得较好的指标。