论文部分内容阅读
近年来随着人工智能的发展,情感智能与计算机技术结合产生了情感计算这一崭新的研究课题。情感在人类的感知、决策等过程中扮演着重要角色。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何使用计算机技术从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。语音情感识别的研究成果对于增强计算机的智能化和人性化、开发新型人机环境、以及推动多媒体技术和信号处理等相关领域的发展有着重要的意义。现有的基于语音声学特征的情感识别研究,尤其是针对普通话语音的研究,还存在较多局限性,如不能像语音识别一样找到一种通用的语音情感特征,且识别效果受说话者、环境、语言、文化、性别等的影响较大,识别效果不佳,鲁棒性、抗干扰能力较差等。
本文围绕语音情感识别中情感语料库的建立、语音情感特征提取与选择、语音情感识别方法四个方面的关键技术,以新型人机交互为应用背景,深入分析这些关键技术的研究现状以及存在的问题,针对高兴、悲伤、惊讶、愤怒、害怕、厌恶、中性7种日常生活中常见的经典情感,建立应用能力良好的普通话语音情感数据库,提出以两级语音情感特征选择、非个性化语音情感特征提取、多重分形语音情感特征提取、分层语音情感识别方法以及语音情感识别决策融合方法为核心的语音情感识别技术。本文的主要工作概括如下:
(1)建立主要以普通话为脚本的语音情感数据库(Speech Emotion Database-SED)和音视频情感数据库(Audio-Visual Emotion Database-AVED)。这两个情感数据库均包含了高兴、悲伤、惊讶、愤怒、害怕、厌恶、中性7种情感,分别由10个和9个不同的非专业表演者在专门的录音室录制完成。其中,将音视频情感数据库AVED进行音视频分离后的音频部分作为情感语料。
(2)提出了基于多重分形的和基于导数的非个性化语音情感特征提取方法,给出了个性化和非个性化语音情感特征的概念,并将所提取的语音情感特征划分为个性化和非个性化语音情感特征两类,分别分析了这些特征对语音情感识别的贡献以及受说话者变化的影响。所提出的多重分形语音情感特征在悲伤、中性情感上的识别效果优于声学语音情感特征,可作为声学语音情感特征的补充;基于导数的非个性化语音情感特征在包含一定情感信息的前提下受说话者个性化因素的干扰较小。对语音情感特征性质的研究结果将有助于进一步研究如何提高语音情感识别的鲁棒性,为特定背景下的语音情感识别提供有益的参考;
(3)提出基于类集/类对的两级语音情感识别和分类器参数优化方法。该方法将原始特征首先采用神经网络贡献分析法进行预选择,然后针对将要划分的类集或者类对,将预选择后的特征进行合并,合并后的特征再使用遗传算法进行特征和分类器参数的优化选择。该方法克服了神经网络选择不够准确、难收敛,遗传算法选择出的特征子集规模较大的缺点,能够保证针对特定的类集/类对选择比较准确的特征子集,选择出的特征子集规模不大,且可同时对分类器的参数进行优化。
(4)提出基于改进有向无环图的分层语音情感识别方法。在该方法中,根据情感对之间混淆度的大小构造有向无环图中语音情感的分层识别过程,并针对容易错分的样本,提出了基于测地距离的鉴别度量算法,给易错分样本提供多次被正确识别的机会,可有效提高易错分样本的识别率。情感识别实验结果表明:改进有向无环图方法在识别时间增加不大的前提下,能够有效地提高语音情感的整体识别率。
(5)提出基于承诺和一致性系数的自适应模糊积分语音情感融合识别方法。该方法将分类器在训练集上分类的先验知识与对待识别样本的分辨能力和分类一致性相结合,获得真实反映个体分类器针对每个待识别样本分类重要程度的自适应模糊密度,个体分类器分别采用不同的情感特征。实验结果表明:所提出的融合方法能够更有效地提高语音情感识别率,取得比基于单一分类器的方法和基于遗传算法的自适应模糊密度融合方法更好的识别效果。
本文在情感语音库建立,语音情感特征提取与选择,语音情感识别方法等方面进行了新的尝试并提出了有效的解决方案,为后续语音情感识别研究提供了新的参考。