论文部分内容阅读
随着人机交互技术的发展,语音的情感识别已经逐渐成为模式识别领域研究的热点之一。随着研究的不断深入,当单独使用HMM和人工神经网络来对语音情感状态进行分类识别时,效果并不是很理想。本文将HMM和人工神经网络两种算法进行融合,取长补短,形成新的混合模型,进而提高系统的识别率。该识别技术在服务机器人、语音自动应答系统等方面具有应用价值。本文对语音情感识别的发展现状进行了分析,对汉语语音情感识别的问题进行了深入的研究。首先,针对目前汉语语音情感识别在建立汉语语音情感数据库时存在很多困难的问题,对语音情感的基础理论以及建立汉语语音情感数据库的原则进行了详细的阐述。然后,为了减少语音信号本身对识别效果的影响,提出了基于GA-SVM的语音端点检测方法并对汉语语音的情感特征进行了统计分析,形成了一个30维的特征向量。针对目前单一的HMM和人工神经网络模型存在的缺陷,提出了将HMM和人工神经网络混合模型应用于汉语语音情感状态的分类识别。该模型首先由HMM产生情感语音信号的最佳状态序列,然后利用时间规整算法对同一状态的特征参数进行规整得到等维的特征向量,并将它作为人工神经网络的输入进行语音情感状态识别。该算法充分利用了HMM极强的动态时序建模能力以及人工神经网络强大的分类能力。最后,以Matlab2012a为工作平台进行编程仿真。实现了HMM和人工神经网络两种模型的结合。并将混合模型分别与HMM和人工神经网络模型进行对比。实验结果表明,HMM和人工神经网络混合模型提高了汉语语音情感识别系统的识别准确率。此外,混合模型在不同信噪比的条件下也体现出了它的优势。