论文部分内容阅读
语音情感识别是指利用计算机分析特定说话人的情感状态及变化,进而确定其内心情绪或思想活动,实现人机之间更自然更智能化的交互。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义。本文首先综述课题的研究背景,并分析目前国内外已提出的语音信号预处理、情感特征的提取、特征降维以及语音情感识别方法。在此基础上,本文主要研究了语音情感特征降维、情感识别过程中的一些关键问题,提出了一些改进方法,并通过实验进行了有效性验证。本文的主要工作如下:(1)提出了基于增量流形学习的语音情感特征降维方法。由于语音情感特征参数较多,存在无关特征和冗余特征,本文提出基于增量流形学习的特征降维方法。该方法将从时间、振幅、基音、共振峰、MFCC系数以及Mel频谱能量动态系数上提取的101个参数作为初始特征,用Isomap将训练样本集的特征维数降至目标维数,再用增量学习的方法求得测试样本的低维特征,从而减少冗余信息的影响,提高分类识别的准确率。(2)提出了多粒度情感语音分段方法。通常长语句的语音情感分析是按固定帧数或长度比例分段从而进行情感特征的提取和分析,这种分段方法对语音情感分析结果的融合实现较简单,但未能充分考虑到语音情感信息完整体现。为了获得更完整与更丰富的语音情感特征信息,本文提出多粒度的情感语音分段方法,即按固定长度比例分段和按韵律结构分段的两种分段方法相结合,从而在这些分段的基础上进行语音情感分析和融合。(3)基于D-S证据理论的多粒度语段融合语音情感识别方法。分段完成后,得到的每个语段都被当成独立的样本来识别,原本的一个样本会得到多个识别结果,这时需要利用信息融合技术将这多个结果组合成一个结果。本文提出基于D-S证据理论的多粒度语段融合语音情感识别方法,在每个语段识别完成后,利用D-S证据理论将属于同一样本的多个语段结果进行融合,得到样本的识别结果。实验结果表明,该方法具有较好的整体识别性能,有效地提高了语音情感的识别率。(4)采用Matlab和VC结合的开发模式,设计实现基于增量流行学习及多粒度语段融合的语音情感识别原型系统,从实验角度验证了上述方法的有效性。