论文部分内容阅读
近年来人工智能技术在计算机领域迅猛发展,情感计算已成为该领域的一个重要分支,若想要机器达到自然和谐的人机交互,实现真正的智能化,准确理解人类的情感是必不可少的技术关键。由于人类情感是复杂的、微妙的、连续的,因此维度情感研究方向已经引起情感计算领域诸多国内外研究者的广泛重视。语音作为日常最直接最重要的交流方式,在包含基本文字信息的同时也承载着丰富多样的情感信息。本文以研究情感语音为背景,从基于PAD三维情感模型构建维度语音数据库的角度出发,在传统的情感语音识别基础之上提出了一种将声学特征与情感语音PAD数据相结合的级联分类方法,并研究利用支持向量回归SVR(Support Vector Regression)算法构建维度情感语音PAD预测模型,实验得到了较好的结果。本文主要创新点和工作如下:(1)优化筛选摘引型情感语音数据库TYUT2.0,并对每句情感语音的强度进行标注。引入PAD三维情感模型,结合SAM自我评定模型,设计了更有利于标注实验的改进的简化版PAD情感量表,对筛选后的情感语音数据库进行了PAD标注实验。(2)为验证使用改进简化版PAD情感量表标注实验得到的PAD数据的合理有效性,设计实验分别对情感语音PAD数据的平均值及标准差进行两方面的数学统计分析,同时研究分析PAD数据在三维情感空间中的分布情况,找出PAD三维空间中各类情感数据的中心坐标点,证明了本文构建的维度语音数据库的合理有效性。(3)在使用支持向量机SVM进行情感语音识别的传统方法基础之上,本文提出了一种将声学特征与情感语音PAD数据结合的级联分类方法。首先提取情感语音的韵律特征和梅尔频率倒谱系数特征,设计对比实验分析最优声学特征组合。根据四类情感语音的PAD值发现愉悦度P分数呈现明显的高低差异,可以有效区分易混淆的情感,所以将声学特征组合与愉悦度情感维度的高低分类相结合,通过级联分类的方法使得情感语音的识别率得以较大幅度的提高。(4)提出了一种基于支持向量回归机SVR的维度情感语音PAD预测模型。依据评价标准均方误差和平方相关系数达到最佳的原则设计实验训练SVR回归预测模型,对比实验得出预测效果最佳的径向基核函数,并利用其对PAD数据进行预测。实验结果表明,基于SVR的预测模型对PAD数据的预测效果良好,其中对激活度A维度的预测精度优于愉悦度P和优势度D。