论文部分内容阅读
语音质量和语音可懂度是语音增强领域的一个分支,语音质量评测算法的研究注重背景噪声和其他干扰的抑制过程,采用听觉方法或认识技术提高通信的可靠性和系统的鲁棒性。而语音可懂度的研究对象是语音信号本身,区别于语音质量,从另一个角度对语音信号进行增强。语音质量和语音可懂度尽管都属于语音增强的分支,但是对于听者接收的语音来说,语音质量是指语音的清晰程度,即其他干扰对语音的影响;而语音可懂度是指听众能够对语音的理解程度。语音质量的高低与语音可懂度的高低并不成正比。例如,即便在较高的背景噪声条件下,听者有时也能听懂语音表达的意思,有时,在安静的场合反而未必能听懂。因此,本研究从语音可懂度的角度,采用提取语音耳蜗熵值的方法对语音进行分段并提取耳蜗熵值,再利用归一化协方差算法和语音混响能量比算法计算语音的可懂度客观评测分数,通过四种相关度分析方法分别评测主观分数和客观分数的相关性,从而对语音可懂度进行客观评测。本研究的主要内容如下:1.对语音信号进行分段处理,提取耳蜗熵值。根据一定的阈值将耳蜗熵值分为高熵值和低熵值。2.采用归一化协方差算法和提取语音混响调制能量比算法。输入语音分别为高熵值段语音和低熵值段语音。两种可懂度算法的区别是后者摆脱了对纯净语音的依赖性,更适用于日常生活中,例如人工耳蜗的植入或者助的听器佩戴。研究结果表明,采用提取耳蜗熵值之后高熵值段语音的可懂度更高些,说明高熵值段语音比低熵值段语音携带有更多的语音信息。并且采用归一化协方差算法和语音混响调制能量比算法的高熵值段语音可懂度主客观相关系数都达到0.85左右,二者相差不大。但归一化协方差算法具有理想化的特点,现实生活中的语音不可能完全为纯净语音,而语音混响调制能量比算法具有无需纯净语音输入的特点,因而更具有实用性。