论文部分内容阅读
随着人机交互系统的快速发展,语音信号中的情感信息近年来正越来越受到人们的重视,特别是在语音合成和语音识别领域。语音是人类交流的重要手段,是相互传递信息的最方便、最基本和最直接的途径。语音信号和面部表情一样,还同时传递着情感信息。而情感在人们生活和交流中起着重要的角色。不难想象,如果一个人失去了说话和表达情感的能力,那他或她的生活将会与世隔绝,是多么的压抑。 从信号处理的观点来看,语音信号不仅包括了文字信息,还包括了说话人的语调和情感信息。情感可被分为两类:主要(原始)情感和次要(派生)情感。主要或原始情感包括害怕、愤怒、高兴、悲伤和厌恶,是所有社会化的哺乳动物共有的,有其特殊的表现形式。次要或派生情感包括自豪、感激、悲痛、亲切和惊奇,是主要情感的变化或组合形式,其中一些是人类特有的。 语音信号的情感识别也可以看成一个模式识别问题。本文介绍了基于神经网络和主成分分析的汉语语音情感识别。首先我们建立了汉语情感语音数据库,其中包括了说话人无关和说话人有关的情感语音。然后,从语音信号中提取了能量、基频和语速等相关的特征参数。并且,在此数据库的基础上对这些情感声学特征参数作了统计分析,分别从基频、能量和语速特性描述了人类四大主要情感(愤怒、高兴、悲伤和害怕)之间的不同特点。 输入的特征矢量通常是高维的,而且具有一定的相关性,即存在一定的冗余。因此我们对神经网络训练集中的数据作了主成分分析。经过主成分分析,既降低了输入的特征矢量的维数,同时也去除了冗余信息。本文采用三种类型的神经网络(OCON、ACON和LVQ)识别汉语语音信号中的四大情感。还提出了基于相对情感特征参数的汉语语音情感识别,并给出了识别结果和实验分析。最后讨论了该领域存在的一些问题和今后需要进一步研究的课题。