论文部分内容阅读
语音信号处理技术与计算机科学、模式识别系统、人工智能等领域与技术密切相关,融合了语言学研究与信号处理技术,对语音信号处理技术的研究会推动相关技术的发展。例如,随着人机交互的不断发展,以语音为通道的人机交互环境将会成发展的热点和主流,语音环境下的交互方式将极大地提高人机交互的自然性和高效性。因此,对语音信号处理技术的深入研究具有重要的理论与实践意义。语音信号处理技术可以分语音的合成、编码以及识别三大类,本文就其中的语音合成技术中语音更改部分的内容:语音时长规整和语音变调技术做重点研究。语音时长规整即在不改变说话人基频、音色等特征下实现对语音时长的改变;语音变调技术则是在不改变说人语音速度的情况下实现对说话人基频的改变。在实践中,语音时长规整和语音变调技术可广泛应用于语音压缩、传输通信、外语教学、影视后期制作及文语转换等众多领域。文章首先概要地阐述了该论文所研究内容的背景、意义,并对语音时长规整与变调技术的主要方法和国内外研究进展做出介绍。其次,研究和阐述了语音信号产生的物理机制,基于其物理机制详细分析了语音信号的经典数字模型。在此基础上,对于语音时长规整技术,详细介绍了典型算法OLA、SOLA、WSOLA以及基于模型的线性预测法等算法的原理及实现方法,并进行仿真对比实验。针对WSOLA算法在进行规整时采用统一规整而没有根据语音的感知特性做出相应的区分,因而在采样率偏低或者整体规整比例偏大的情况下规整效果将会变差的缺陷,分析了人耳的听觉预测原理,提出基于人耳听觉预测的改进WSOLA时长规整算法,对人耳感知敏感的转折区语音进行了保留,提高了输出语音的规整质量。进一步针对改进算法带来的规整比例误差提出一种动态时间规整补偿算法,有效地使改进算法在提高感知度的情况下,保证了规整时长的准确性。对于语音变调技术,分析推导了基于时域重采样方法结合语音时长规整的算法、基于线性预测的方法等算法,并进行仿真对比实验。应用线性重采样结合基于人耳听觉预测的改进WSOLA时长规整算法获得了很好变调效果的语音。另一方面,针对声门激励信号的模拟和声道共振峰模型的准确提取两方面,提出基于同态滤波倒谱域处理的方法。用倒谱方法提取人声元音信号进行周期拓展和重采样,得到根据规整需求改变基音周期的声门模拟激励,用同态解卷方法提取声道传输函数并用线型比例的重采样方法得到改变共振峰频率的声道传输函数,有效地实现了保证语音时长不变的情况下对语音的变调处理,提高了合成语音的自然度。最后构建基于Matlab的GUI语音信号处理平台,把对语音时长规整与变调技术的各研究算法集成起来,使处理结果直观呈现。该平台能完成对本地或现场录制语音按用户规整意愿进行语音变速不变调、语音变调不变速以及变速变调的调整,实时显示出规整后语音的波形及频谱。并通过快捷键的功能加入,可快捷实现男声变女声、女声变男声等变换,保存功能使用户能对规整后的语音进行保存。