论文部分内容阅读
随着信息技术的快速发展和对于人机交互技术要求的不断提高,新一代的人机交互对计算机情感智能的需求日益凸显。情感识别是情感智能的基础与必要前提,具有重要的理论研究意义和广阔的市场前景。作为一种高效的人机交互途径,语音信号蕴含着丰富的说话人情感信息,语音情感识别这项交叉学科研究课题正得到越来越广泛的关注与重视。近年来,小波包分析作为非稳态信号分析的有力工具,在数字语音信号处理领域得到了广泛关注。对于语音情感识别研究,发挥小波包分析的优点,提取能有效表征情感的语音特征,是本文的重点研究内容。 本文首先介绍了语音情感识别的研究背景与意义,对语音情感识别的研究现状作了概括性的描述,并分析了语音情感识别研究中的关键问题。 针对语音情感识别问题,本文定义了用于构建最优小波包基的Fisher比率准则函数,并实现了Fisher比率准则下最优小波包基的构建。在此基础上,本文提取了一种语音情感新特征——小波包倒谱系数。采用支持向量机作为语音情感分类器,本文通过大量的对比实验验证了小波包倒谱系数特征在语音情感识别中的有效性。其后,本文研究了小波包倒谱系数特征与传统声学特征的融合,实验结果表明多特征融合进一步提高了语音情感识别的正确率。 最后,针对语音情感识别中的噪声问题,本文引入了对加性白噪声具有较好鲁棒性的子带频谱质心参数,并通过适当的融合策略将其与小波包倒谱系数相结合,提出了一种小波包倒谱系数特征的噪声鲁棒性改进算法。不同信噪比水平下的语音情感识别实验结果表明,相比于原始的小波包倒谱系数特征以及梅尔频率倒谱系数特征,改进后的特征具有更好的噪声鲁棒性。