基于长短时特征融合的语音情感识别方法

来源 :清华大学学报(自然科学版) | 被引量 : 49次 | 上传用户:bbschengpengfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征。针对这2类基于不同时长的情感特征均不能够最有效地表达情感信息的问题,该文提出使用"语段特征"用于识别,并给出了各类情感状态对应的"最佳识别段长"。为进一步提高系统识别性能,该文还构建了全局控制Elman神经网络用于将全局统计特征与基于语段的时序特征相融合。实验表明:融合长短时特征后的平均系统识别率可达66.0%,与单独使用各类特征或语段特征相比分别提高了5.9%和1.7%,同时有效降低了各情感之间的混淆度。
其他文献
This paper presents some new developments in image mining. Image mining con-siders the chain from object identification from remote sensing images through modeling,tracking on a series of images and p
期刊
The accuracy of face alignment affects greatly the performance of a face recognition system. Since the face alignment is usually conducted using eye positions, the algorithm for accurate eye lo- caliz
期刊
Two watermarks are embedded into the original image. One is the authentication water- mark generated by secret key, which is embedded into the sub-LSB (Least Significant Bit) of the original image for
期刊
When using AdaBoost to select discriminant features from some feature space (e.g. Gabor feature space) for face recognition, cascade structure is usually adopted to leverage the asymmetry in the distr
期刊
视觉线索可看作视感知的一类冲激或称为激励.在贝叶斯估计理论估计的框架内,通过以概率形式描述视觉线索来研究视感知过程的认知机理,探索一种多视觉线索信息统计集成方法.这种方法在计算机视觉尤其是视频分析领域得到了广泛应用.介绍多视觉线索贝叶斯集成的基本思想和一些最新的研究成果,结合作者的研究工作讨论在贝叶斯概率模型框架下实现多视觉线索信息统计集成方法及相应的算法,同时针对复杂背景下视频目标跟踪应用实例和
期刊
利用人眼视觉暂留效应,提出了一种新型的体三维显示方式,搭建了将一系列二维切片图像融合成一幅三维立体图像的原型系统。介绍了该系统的设计思路并阐述了其主要组成元件的功能。实验证明,该系统可直接裸眼观察三维图像,而不用借助于立体眼睛等辅助工具。
期刊
为使得合成系统所生成的语音更加自然,构建了一个普通话对话语气韵律模型。借鉴现有陈述语气韵律模型的研究成果,针对对话语气的特点进行扩展,生成具有对话语气韵律特征的基频曲线。与陈述语气相比,对话语气具有较快的语速和较窄的调域,然而仅通过变换语速和调域却无法模拟出对话语气的特征。对话语气中音节内部基频曲线无法完成其原先固有的调形,这种现象称为"未完成现象"。为了模拟这种现象,利用分类树预测一个音节是正常
期刊
语音索引是语音检索任务的关键问题之一,本文针对汉语自然对话语音索引问题进行研究,提出了基于子词的词格索引和融合方法。通过最优路径索引和词格索引的性能比较,选择词格进行索引,首先将词格进行后验概率表示,根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格,选择字、有调音节和无调音节作为子词单元,在汉语自然对话语音关键词检测任务上,关键词检测指标FOM从基线系统的68.3%分别
在说话人辨认任务中,高斯混合模型-通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine, SVM)利用帧向量在空间中分布的高斯混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够。
在采用支持向量机的文本无关的说话人确认中,针对传统的均值超向量特征区分性不够明显的情况,该文提出采用相对背景模型的权重更新量以及均值更新量形成超向量,用这个超向量作为支持向量机的特征函数,在线性核函数的情况下,能够取得优于均值超向量和传统的Gauss混合模型-通用背景模型(GMM-UBM)的方法。在2006年美国国家标准与技术研究所说话者识别(NIST SRE)1conv4w-1conv4w数据库
期刊