论文部分内容阅读
随着人工交互技术的飞速发展,越来越多研究者关注情感计算方面的研究。情感计算在模式识别中开辟了研究语音情感识别的新领域,让机器在听懂人类语言内容的同时也能够识别说话人的当前情感状态。然而目前情感语音识别系统的发展还不够完善,存在训练集质量不纯、没有确定最能表征情绪状态的特征参数和识别模型缺乏稳定性、高效性等问题,因此本文针对上述问题开展研究,有利于情感语音识别技术的发展,同时促进人工智能的学术研究和工程应用领域的发展。 本论文基于传统语音情感识别模型框架,对基于级联式语音情感识别模型展开研究。本文主要内容如下: (1)设计了一个SVM级联式语音情感识别模型总体框架。该框架包含语音增强方法、情感特征选取和级联式识别模型三个设计模块,其中语音增强方法模块包括字典学习阶段和语音增强阶段;情感特征选取包括特征选择和特征筛选;级联式识别模型模块结合多级分类理论,从语音情感数据预处理开始,选择及筛选情感特征并搭建及优化级联式识别模型。 (2)提出了基于一步字典学习(One-stage dictionary learning,OS-DL)的语音增强方法。该方法首先采用初始化系数矩阵方法为带相干性准则的批量最小角回归(Batch LARS with coherence criterion,LARC)算法的OS-DL算法分别学习得到纯净语言、噪音和带噪语音的幅度谱字典;接着将纯净语言和噪音的联合谱字典作为LARC算法的输入,对带噪语音幅度谱进行稀疏表示;最后将得到的稀疏系数矩阵用来估计纯净语音幅度谱,并基于带噪语音的相位信息重构出纯净语音。实验结果表明,在不同信噪比下,所提语音增强方法均能很好地抑制噪声,在提高语音质量的同时减少计算复杂度。 (3)提出了新的语音情感特征选取方案。该方案首先从情感语音预处理出发,基于传统的情感特征选取方法提出新的低维特征组合方案;然后确定合适的筛选方法及各参数的值;接着在CASIA情感语料库数据集上验证了不同的单一识别算法下所提取方案的可行性和准确性;最后围绕识别效果最佳的一种识别算法,分析各个情绪之间的特征混淆度。仿真实验表明,所提特征选取方案有效地缓解了维度灾难和情绪混淆度大的问题。 (4)提出了基于SVM级联式语音情感识别模型设计模块。该模型结合级联分类策略和SVM分类器具有较强的逼近、泛化能力,首先提出了两种级联式情感识别模型;然后分析各级分类器的分类结果,选择合适的分类器及确定各参数的值;接着选择识别率最高的模型,并将已选好的模型进行扩展;最后对模型结构进行优化。仿真实验表明,此识别模型能够很好地将混淆的情感区分开,从而提高了情感识别准确率。 最后,通过相应的实验验证每一个模块所具有的优越性,以及验证本论文所提的情感语音识别总体模型的可行性、准确性和高效性。