论文部分内容阅读
语音信号处理作为一个重要的研究领域,已经有了很长的研究历史,它始终与信息科学中最活跃的前沿学科保持着最密切的联系。而人类的语音中不仅包含了文字符号信息,还包含了话者的情感等信息。作为下一代人类交互系统的重要组成部分,从语音信号中提取情感特征,判断说话人的情感状态是一个新兴的研究领域。
本文采用模糊逻辑方法研究语音情感分析与识别。情感无论是从其定义还是具体描述上都是一个模糊和不确定的概念,而模糊逻辑是处理不确定信息的需要而产生的。相关的研究表明,模糊逻辑在情感状态的建模以及对情感状态的激发和模拟上具有很大的优势。
本文相关实验是在语音情感标准数据库EMO-DB(Berlin Emotional Speech Database)下完成的。主要研究工作如下:
(1)采用模糊熵方法对特征参数的有效性进行分析。在语音情感分析中,需要利用所提取的特征参数来决定语音信号的情感归属。不同的特征参数对于情感区分的作用是不同的,因此,有必要对所提取的特征参数的有效性进行分析,以提高情感的识别率。本文采用模糊熵方法来完成特征参数有效性的度量。
(2)采用模糊聚类中的两类不同方法实现情感聚类分析。模糊聚类算法大体可以分为两类:一类是生成一个模糊的划分,每个对象以不同的隶属度从属于若干个类;另一类是生成若干个确定的划分,再从中选取一个,使得每个对象从属于特定的类。本文探索该两类方法在语音情感分析与识别中的应用,并给出针对EMO-DB数据库的实现结果。
(3)引入直觉模糊集理论和信息区分度方法进行语音情感状态分析与识别。直觉模糊集理论是一种知识表示的新方法,它采用隶属度、非隶属度以及直觉参数等三个特征函数对事物进行描述。本文引入信息区分度方法实现两个直觉模糊集合之间的距离测度。
实验结果表明,用模糊逻辑来处理语音情感识别是一种行之有效的方法,其识别率可以达到预期的结果。但是,由于该方法中的某些环节还没有公认的理论支持和严密的数学证明,这给实际应用带来了困难,但有许多问题值得进一步探索。