论文部分内容阅读
音频信号通常包含语音信号、乐音信号以及两者任意比例的混合(也即混合音频信号)。鉴于当前音频压缩编码方法或是面向纯语音信号,或是面向纯乐音信号的现实,本文对可同时面向各类音频(尤其是混合音频)的压缩与重建方法展开了深入研究。音频信号的压缩与重建过程通常可分为:稀疏表示、分析与综合以及量化与编码等三个单元,其中,分析与综合单元通常存在两种实现方式:基于传统香农采样定理的语/乐音统一编码(Unified Speech and Audio Coding, USAC)方式和基于压缩采样理论的压缩感知(Compressed Sensing, CS)方式。两种方式中,USAC为动态图像专家组(Moving Pictures Experts Group, MPEG)于2012年颁布的最新音频编码标准,可同时面向各类音频信号,尤其是混合音频信号,且其性能不亚于当前最优的语音及乐音压缩编码标准;而CS方式则是基于CS理论,在对混合音频信号的压缩采样过程中,将压缩与采样相融合,在对信号采样的同时即实现对其压缩,使得采样过程极为简单,并在某种意义上突破了香农采样定理的局限。需要指出的是,随着科技的发展,可同时面向各类音频信号的统一压缩采样方式必将快速在我们的生活中占据重要位置。基于传统香农采样定理的实现方法具有结构成熟,兼容性好等优点,在当前及将来一段时间内将占据统治地位。但由于其复杂度高,普适性弱等缺点,必将被越来越成熟的基于cs理论的方法所替代。本论文在对混合音频信号的稀疏表示、量化与编码以及USAC压缩编码标准展开深入研究的基础之上,探讨了混合音频信号的CS压缩与重建方法。本论文的主要工作包括:(1)针对混合音频信号变换域系数的矢量量化过程中,量化器的存储需求随矢量维度的增加而指数式增长的缺陷,提出了一种具有有限个状态的熵受限矢量量化器(Finite-State Entropy Constrained VQ, FS-ECVQ)。该FS-ECVQ利用当前帧以及先前若干帧中已量化过的邻近矢量的统计特性来预测当前输入矢量的统计特性,从而有效消除了变换域系数的帧间及帧内冗余,进而显著提升了量化性能。实验表明,与USAC最终版中对应算法相比,FS-ECVQ在维持率/失真(Rate/Distortion, R/D)性能不变的同时,减少了14.6%的存储需求。(2)针对混合音频信号高频带宽扩展过程中,通常或者采用对语音信号最优的频谱复制(Spectral Band Reputation, SBR)方式或者采用对乐音信号最优的谐波延伸(Harmonic Bandwidth Extension, HBE)方式的现实,提出了一种自适应的高频带宽拓展(adaptive BWE, aBWE)方式。该方式将SBR与HBE相融合,根据音频信号当前输入帧的频谱特性实时地选取最佳的频带扩展方式,从而可同时适用于各类音频信号,尤其是混合音频信号。实验表明,在高频带宽扩展中,对于语音信号和乐音信号,aBWE的性能不亚于SBR和HBE的性能,而对于混合音频信号,aBWE的性能则明显优于SBR和HBE的性能。(3)信号的稀疏表示是CS理论应用的前提与基础,而混合音频信号在单一正交基下通常很难实现稀疏分解。针对这一难点,提出了一种基于结构化最小绝对收缩选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)的混合音频信号稀疏逼近方法。该方法将音频信号看作是音调成份、暂态成份与噪声成份的叠加,采用结构化LASSO算子将音频信号最佳地分解为音调层与暂态层。由于所得两层分别在时、频域中具有很强的稀疏特陛,为此,实现了音频信号的近似最佳稀疏分解,进而为CS理论在音频信号中的应用提供了前提与基础。(4)针对一般音频CS方法中,通常将音频信号分帧处理,各帧独立压缩与重建,而忽略其帧间的时间相关性的不足,提出了一种基于动态CS的混合音频信号重建算法,该算法在对混合音频信号进行统计建模的基础上,借助信息传递的机理充分利用其帧间的时间相关性,从而提升系统的重建性能。本课题在对传统混合音频压缩编码方法中若干关键问题展开深入研究的基础之上,探讨了将CS理论用于混合音频信号的压缩与重建。一方面传统方式中关键问题的研究可使得其更为成熟,更加有利于实际应用;另一方面,这些关键问题常常也是CS方式中的技术难点,其解决方法可作为CS方式的借鉴。为此,本课题既具有重要的理论意义也具有重要的现实意义。