论文部分内容阅读
本文以特征波形内插(CWI)编码算法为核心,对2.4kbps以下的低速率语音编码进行研究,从语音编码模型和数据压缩两方面出发,力图在更低的编码速率下提高语音合成质量。本文的研究工作主要包括:
(1)对线谱频率(LSF)参数采用瞬时分解方法实现数据压缩。对修正严格瞬时分解算法进行改进,提出了一种有限误差的修正严格瞬时分解算法。该算法重新规定事件插入法则,增加事件消除机制,使分解误差只受预设误差门限控制,实现灵活调节输出事件速率的目的。对LSF参数量化时,新算法能在相同编码速率下,获得比传统算法更低的平均谱失真。
(2)针对瞬时分解算法在对LSF参数数据压缩时出现编码速率波动的问题,提出了一种自适应事件速率的瞬时分解算法。自适应算法检测短时事件速率,预测所需事件速率对应的误差门限,通过短时速率的不断更新,最终使事件的输出速率稳定在预设事件速率附近,从而稳定编码速率,提高了瞬时分解算法的实用性。
(3)对瞬时分解算法的事件函数进行优化。本文通过等级提升算法改进事件函数形状的生成机制。新算法不仅使两事件间的累计重建误差达到最小,同时也保证了事件函数的凸性。与传统事件函数构造方法相比,优化后的瞬时分解算法能够更好地拟合原LSF参数轨迹,增强分解效果。
(4)由于传统CWI算法对特征波形相位信息的忽略,以及对特征波形的整体对齐,往往造成语音高频谐波分量丢失,从而导致语音的噪声感。为提高合成语音的质量,提出了一种基于多带的2.4kbps特征波形内插算法。该算法引入语音多带清浊音标志;并以此为依据对波形内插编码模型中的慢渐变波形和快渐变波形的相位谱进行估计,在语音合成时则对特征波形采取部分对齐的方法。与传统算法相比,新算法明显提高了语音的清晰度。与标准2.4kbps混合激励线性预测语音编码算法相比,该算法合成语音质量亦略显优势。
(5)为进一步降低编码速率,提出了一种基于非负矩阵分解的1kbps波形内插语音编码算法。该算法对特征波表面的幅度矩阵进行非负矩阵分解,以获得局部特征矩阵,并对该局部特征矩阵进行约束和改进,使优化后局部特征更加突出,对应的基矢量进一步稀疏,从而有利于对权矢量的量化,以实现对特征波表面的高效编码。新算法同时加入清浊音标志,对特征波表面的相位谱进行估计,以更好的提高合成语音质量。实验表明,新算法能够在1kbps的低编码速率条件下,获得与1.2kbps混合激励线性预测语音编码算法相近的合成语音质量,取得了较好的效果。
(6)对语音的频带分割进行探讨,提出了一种基于谐波和噪声能量改进的浊音截止频率轮廓估计算法。改进算法中对累积谐波和噪声能量函数进行对应谐波处的功率谱加权,并且在浊音截止频率轨迹的平滑部分采用形态滤波的手段。与原算法相比,通过改进算法得到的截止频率轮廓在语谱图上标注得更为准确,在主观评分测试中改进算法也获得了优于原算法的测试评分。改进算法比原算法能够更加准确的对浊音截止频率轮廓进行估计,从而使得语音谐波/噪声模型在语音编码方面具有更为有效的应用。