论文部分内容阅读
耳语音是一种有别于正常语音的发音模式,是一种单一发音类型,声门前部(韧带)完全靠拢,后部(杓状软骨)有一个宽三角裂隙,气流通过开放区产生摩擦噪声,形成耳语音。由此可以确定耳语音的主要特点是发音时音量低且声带完全不振动,即没有基频。耳语发音方式在生活中有着广泛的应用,例如在公共场合利用手机通信时,为了不影响他人并且保障通话内容的保密性,常常使用耳语音。耳语在一些专业领域同样有着重要的应用意义,例如语音学家用耳语音研究语音感知问题、无喉病人的语音恢复问题、公安和法院可通过耳语音分析来辨别说话人身份等等。由于耳语音的发音特性以及周边环境的影响,语音质量必然下降,清晰度可懂度较差。所以研究一种方法将耳语音转换成正常语音,必然可以推广耳语音的应用范畴,由此本文的工作就是围绕着耳语音转换的前端处理问题而展开的。本文的研究工作主要有三大部分,耳语音的端点检测、声韵分割和声调感知。耳语音端点检测的正确率是后续所有工作的保障,本文根据耳语音的混沌湍流特性以及其本征模态函数(Intrinsic Mode Function, IMF)的能量,分别提出了基于分形方法和基于经验模态分解(Empirical Mode Decomposition, EMD)拟合特征的端点检测方法,均取得了很好的效果。由于汉语作为一种声调语言,说话人的语义和情感都是通过语音的声调韵律体现出来,故要进行耳语音——正常语音的转换,必须在韵母段添加基频,因此必须在检测出有声段后,分离出声韵母。本文根据耳语的特殊发音现象,提出改进EMD算法来定位嗓音起始时刻(Voice Onset Time, VOT);并依据耳语音声韵母的不同频谱分布,分别提出基于小波分解后的近似与细节能量比(Detail-Approximation Energy Ratio, DAER)和IMF瞬时频率方法的声韵母分离。在获得韵母段后,根据人的听觉掩蔽效应,首次提出了耳语音声调的新载体——扩散Bark谱能量比例拟合曲线,并获得了较高的声调识别率78%,为下一步耳语音的转换提供了重要的信息。这些工作不但为耳语音——正常语音的转换提供了必要的参数,同时也为在数字信号处理领域的人的发音方式及人耳的感知特征作了进一步的研究。