论文部分内容阅读
情感识别在人机交互方面一直是一个极其重要的领域,涉及到了人工智能,情感计算等多个组成部分。语音往往能够直接的表达出人类的情感,因此如何提高语音情感识别的准确率一直是声学领域的热门研究课题。语音情感识别在生活中有着重要的意义,如机器自动识别儿童的情感并加以疏导或记录,以便家长能够更好的关注于儿童的心理健康;在公安局或监狱内,通过非接触式的识别被审问人的语音情感,能够更好的辅助警方发现嫌疑人的心理活动,如是否说谎。语音情感识别的用处是显而易见的。然而,由于缺乏对语音的时序关系的建模,以及其和情感类别之间的建模,使得语音情感识别在现实环境下仍然处于起步状态。本文在国自然基金的资助下,针对语音的时序关系,提出了多种基于注意力机制的语音情感识别算法,并在多个公开语料库上优于当前最先进的语音情感识别算法的性能。本文的主要工作和创新点包括:
(1)研究了语音情感识别的意义,以及调研了当前最先进的语音情感识别的算法。调研了注意力机制在语音、自然语言处理间的运用,以及当前最先进的注意力机制的算法。介绍了相关的语音情感识别公开语料库。
(2)为了挖掘对于不同情感更具有区分性的特征,首先介绍了语音情感识别的特征预处理,并提出一种适用于提取语音时序关系的帧级语音特征来替换传统的静态语音特征,从而尽可能的保留语音在情感识别中的时序信息。实验证明,该时序特征的某些维度对不同语音情感的区分度十分显著。
(3)为了使得长短时记忆网络(LSTM)更加高效的处理情感特征,提出了一种LSTM的变体Attention-LSTM,将传统LSTM的遗忘门和输入门替换为对细胞状态计算自注意力的注意力门,大幅度的减少了 LSTM 结构的变量参数,能够在缩短 LSTM 训练时间的同时显著提升识别准确率,且同时优于LSTM和多个先进的变体。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了0.7%;在Enterface公开语料库上,相对提升了7.5%;在GEMEP公开语料库上,相对提升了5.2%。
(4)为了使得不同情感数据在 LSTM 的输出能够更具区分度,提出了一种动态筛选 LSTM 输出的方法。相比传统的使用 LSTM 时序输出的最后一个状态,本文分别提出了两种注意力筛选的方法:基于时间维度注意力的筛选和基于特征维度注意力的筛选,能够同时从两个维度对需要关注的对应情感特征进行自动加权。随后,组合上述Attention-LSTM、时间维度注意力和特征维度注意力的方法,得到了本文的最佳模型。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了3.1%;在Enterface公开语料库上,相对提升了18.2%;在GEMEP公开语料库上,相对提升了17.5%。该模型和静态特征的SVM(支持向量机)算法相比,在对应三个公开语料库上,可以分别相对提升6.2%,60.6%,42.5%的性能。
(5)为了充分利用不同 LSTM 层间的输出进行情感分类,提出了一种基于注意力机制做特征筛选,去除冗余信息的“Dense LSTM”。利用上述两种不同维度的注意力算法做LSTM层间的特征筛选,显著的提高了语音情感的识别率。在识别准确率上,相比基线,在Enterface公开语料库上,分别相对提升了10.3%和12.8%,在IEMOCAP公开语料库上,分别相对提升了10.9%和17.4%。
综上所述,本文针对时序关系和情感类别之间的建模,使得LSTM内部、LSTM输出、多层LSTM能够通过注意力机制挖掘出显著区分情感的特征,从而有效提高语音情感的识别率。这能进一步提升实际应用中的语音情感识别算法,极大地促进人机交互的发展。
(1)研究了语音情感识别的意义,以及调研了当前最先进的语音情感识别的算法。调研了注意力机制在语音、自然语言处理间的运用,以及当前最先进的注意力机制的算法。介绍了相关的语音情感识别公开语料库。
(2)为了挖掘对于不同情感更具有区分性的特征,首先介绍了语音情感识别的特征预处理,并提出一种适用于提取语音时序关系的帧级语音特征来替换传统的静态语音特征,从而尽可能的保留语音在情感识别中的时序信息。实验证明,该时序特征的某些维度对不同语音情感的区分度十分显著。
(3)为了使得长短时记忆网络(LSTM)更加高效的处理情感特征,提出了一种LSTM的变体Attention-LSTM,将传统LSTM的遗忘门和输入门替换为对细胞状态计算自注意力的注意力门,大幅度的减少了 LSTM 结构的变量参数,能够在缩短 LSTM 训练时间的同时显著提升识别准确率,且同时优于LSTM和多个先进的变体。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了0.7%;在Enterface公开语料库上,相对提升了7.5%;在GEMEP公开语料库上,相对提升了5.2%。
(4)为了使得不同情感数据在 LSTM 的输出能够更具区分度,提出了一种动态筛选 LSTM 输出的方法。相比传统的使用 LSTM 时序输出的最后一个状态,本文分别提出了两种注意力筛选的方法:基于时间维度注意力的筛选和基于特征维度注意力的筛选,能够同时从两个维度对需要关注的对应情感特征进行自动加权。随后,组合上述Attention-LSTM、时间维度注意力和特征维度注意力的方法,得到了本文的最佳模型。在识别准确率上,相比基线,在CASIA公开语料库上,相对提升了3.1%;在Enterface公开语料库上,相对提升了18.2%;在GEMEP公开语料库上,相对提升了17.5%。该模型和静态特征的SVM(支持向量机)算法相比,在对应三个公开语料库上,可以分别相对提升6.2%,60.6%,42.5%的性能。
(5)为了充分利用不同 LSTM 层间的输出进行情感分类,提出了一种基于注意力机制做特征筛选,去除冗余信息的“Dense LSTM”。利用上述两种不同维度的注意力算法做LSTM层间的特征筛选,显著的提高了语音情感的识别率。在识别准确率上,相比基线,在Enterface公开语料库上,分别相对提升了10.3%和12.8%,在IEMOCAP公开语料库上,分别相对提升了10.9%和17.4%。
综上所述,本文针对时序关系和情感类别之间的建模,使得LSTM内部、LSTM输出、多层LSTM能够通过注意力机制挖掘出显著区分情感的特征,从而有效提高语音情感的识别率。这能进一步提升实际应用中的语音情感识别算法,极大地促进人机交互的发展。