语音情感特征提取及识别方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:sese4546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着人工智能的发展,情感智能与计算机技术结合产生了情感计算这一崭新的研究课题。情感在人类的感知、决策等过程中扮演着重要角色。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何使用计算机技术从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。语音情感识别的研究成果对于增强计算机的智能化和人性化、开发新型人机环境、以及推动多媒体技术和信号处理等相关领域的发展有着重要的意义。现有的基于语音声学特征的情感识别研究,尤其是针对普通话语音的研究,还存在较多局限性,如不能像语音识别一样找到一种通用的语音情感特征,且识别效果受说话者、环境、语言、文化、性别等的影响较大,识别效果不佳,鲁棒性、抗干扰能力较差等。   本文围绕语音情感识别中情感语料库的建立、语音情感特征提取与选择、语音情感识别方法四个方面的关键技术,以新型人机交互为应用背景,深入分析这些关键技术的研究现状以及存在的问题,针对高兴、悲伤、惊讶、愤怒、害怕、厌恶、中性7种日常生活中常见的经典情感,建立应用能力良好的普通话语音情感数据库,提出以两级语音情感特征选择、非个性化语音情感特征提取、多重分形语音情感特征提取、分层语音情感识别方法以及语音情感识别决策融合方法为核心的语音情感识别技术。本文的主要工作概括如下:   (1)建立主要以普通话为脚本的语音情感数据库(Speech Emotion Database-SED)和音视频情感数据库(Audio-Visual Emotion Database-AVED)。这两个情感数据库均包含了高兴、悲伤、惊讶、愤怒、害怕、厌恶、中性7种情感,分别由10个和9个不同的非专业表演者在专门的录音室录制完成。其中,将音视频情感数据库AVED进行音视频分离后的音频部分作为情感语料。   (2)提出了基于多重分形的和基于导数的非个性化语音情感特征提取方法,给出了个性化和非个性化语音情感特征的概念,并将所提取的语音情感特征划分为个性化和非个性化语音情感特征两类,分别分析了这些特征对语音情感识别的贡献以及受说话者变化的影响。所提出的多重分形语音情感特征在悲伤、中性情感上的识别效果优于声学语音情感特征,可作为声学语音情感特征的补充;基于导数的非个性化语音情感特征在包含一定情感信息的前提下受说话者个性化因素的干扰较小。对语音情感特征性质的研究结果将有助于进一步研究如何提高语音情感识别的鲁棒性,为特定背景下的语音情感识别提供有益的参考;   (3)提出基于类集/类对的两级语音情感识别和分类器参数优化方法。该方法将原始特征首先采用神经网络贡献分析法进行预选择,然后针对将要划分的类集或者类对,将预选择后的特征进行合并,合并后的特征再使用遗传算法进行特征和分类器参数的优化选择。该方法克服了神经网络选择不够准确、难收敛,遗传算法选择出的特征子集规模较大的缺点,能够保证针对特定的类集/类对选择比较准确的特征子集,选择出的特征子集规模不大,且可同时对分类器的参数进行优化。   (4)提出基于改进有向无环图的分层语音情感识别方法。在该方法中,根据情感对之间混淆度的大小构造有向无环图中语音情感的分层识别过程,并针对容易错分的样本,提出了基于测地距离的鉴别度量算法,给易错分样本提供多次被正确识别的机会,可有效提高易错分样本的识别率。情感识别实验结果表明:改进有向无环图方法在识别时间增加不大的前提下,能够有效地提高语音情感的整体识别率。   (5)提出基于承诺和一致性系数的自适应模糊积分语音情感融合识别方法。该方法将分类器在训练集上分类的先验知识与对待识别样本的分辨能力和分类一致性相结合,获得真实反映个体分类器针对每个待识别样本分类重要程度的自适应模糊密度,个体分类器分别采用不同的情感特征。实验结果表明:所提出的融合方法能够更有效地提高语音情感识别率,取得比基于单一分类器的方法和基于遗传算法的自适应模糊密度融合方法更好的识别效果。   本文在情感语音库建立,语音情感特征提取与选择,语音情感识别方法等方面进行了新的尝试并提出了有效的解决方案,为后续语音情感识别研究提供了新的参考。  
其他文献
RFID技术是哈里·斯托克曼于1948年在《利用能量反射进行通讯》一文中提出的一项技术,它使用射频能量为芯片的操作产生电源,使免接触操作芯片成为了可能,为IC/ID卡的读写操作
将统计模型引入颅面复原领域,通过对CT切片图像三维重建和特征点标定,建立颅骨和面皮的统计模型,将统计模型分为已知和未知两部分,利用统计模型获得的先验知识加上待复原颅骨
随着互联网和电子设备的发展,文本、图像和视频等数据正在飞速增长。最近邻检索是数据处理中的一个常用需求,可是,在大规模数据中进行精确的最近邻查找是非常困难的。为了解
近年来,实时视频会议、网络音视频点播、分布式存储备份以及虚拟现实游戏等诸多分布式多媒体技术的使用在生活中发挥着越来越大的作用。组播技术作为这些分布式实时应用的关
随着信息的急剧膨胀,推荐系统在用户浏览中扮演着越来越重要的角色。对移动设备用户而言,如何快速而高效的共享和浏览图片对于移动设备的推广非常重要。目前绝大多数的推荐系
无线传感器网络(wireless sensor networks)是一门融合了无线通信技术、微机电系统技术、嵌入式系统技术、传感器技术、网络技术、分布式处理技术的一项新兴交叉学科,它在军
无线Mesh网络是传统无线通信的一个重要的演进方向。作为一种具有自组织多跳特性的宽带无线网络技术,无线Mesh网络具有高速率,易组网,低成本等优点。无线Mesh网络技术可以克
个性化在线判题系统不同于传统的在线判题系统,它可以针对不同学生的不同知识基础,选择不同类型的题目给学生,从而提高学生的学习效率,帮助学生更快找到适合其练习的题目。为
群体智能算法是一种高效的优化算法。由单个结构复杂的个体所完成的任务可由大量结构简单的个体所组成的群体合作来完成,并且后者往往更具有健壮性、灵活性和经济上的优势。
随着社会的发展,电能已经成为现代人类中不可缺少的重要能源,人们对电能质量的关注程度越来越高。但是对电能质量的监测与分析没有统一的标准,电能质量各系统之间数据存储格