论文部分内容阅读
语音转换是语音信号处理领域的一个重要分支,具体说来,语音转换即是保持语音中的语义不变,仅改变说话人的个性信息,使之听起来像特定说话人的声音。语音转换的研究包含语音信号处理的各个方面,如特征提取,特征对齐,语音合成等,对于语音转换的研究也有利于促进其它领域的发展,对人类了解语音信号的本质具有非常重要的作用,同时语音转换的研究也有很多的实际应用场景,如保密通信,定制个性化声音等。在语音转换迈向实际应用中,噪声对于语音转换的干扰是非常严重的,本文针对含噪语音难以实现有效的语音转换,在非负矩阵分解算法的基础上,提出联合字典优化的噪声鲁棒性语音转换算法(BE-NMF),使得含噪语音与联合字典匹配,从而实现语音转换与语音去噪相结合,实现噪声环境下的语音转换;同时结合后向剔除算法对联合字典中无效原子的剔除作用,横向减小联合字典的大小,在保持转换性能基本不变的情况下提高转换效率。在多信噪比和多种噪声的条件下的对比实验表明,本文BE-NMF算法相较于传统NMF算法和经过谱减消噪预处理的NMF算法具有更高的转换效果,同时后向剔除算法也在一定程度上提升了转换的效率。针对单帧特征转换所引起的转换语音的不连续性问题,在BE-NMF算法基础上引入上下文信息,通过多帧构造一帧形成超帧的方式解决,随之通过Mel滤波的方式纵向降低超帧维数,降低计算复杂度;结合语音信号的特点,将语音信号通过谐波冲激分解算法分解为谐波部分和冲激部分,并对两部分信号分而治之,对含有个性信息的谐波部分进行转换,对不含有个性信息的冲激部分,进行维纳滤波处理,对谐波信号部分进行补偿。实验研究表明:仅对谐波信号部分进行转换,能够提高转换的客观评价质量,冲激信号部分的补偿作用对语音的主观听觉质量有明显的提升作用;另外上下文信息的引入,也在一定程度上提升了转换质量,通过Mel滤波处理的方式虽然同帧数情况下转换质量有所降低,但是其转换速度在帧数为9时提升个5倍左右,因此可以牺牲一定的转换效果提升转换速度,这对于实际应用具有非常可观的作用。