基于稀疏约束的情感语音转换的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:gbe3919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
让计算机具备情感语音交流能力一直是人机交互领域的研究难点和热点。在人类交流的过程中,语音信号既含有丰富的文本信息,也包括了说话人的情感特征。为了获得更富有情感的机器语音,针对机器合成的语音信号进行情感转换研究显得尤为重要。情感语音转换是一种研究将中性音转换为带有某类情感语音的技术,广泛使用于情感识别、医疗、军事等领域。本文主要针对情感语音转换中的特征和转换模型进行研究,主要的研究内容如下:首先,提出了一种采用L1/2稀疏约束美尔频率倒谱系数(MFCC)的语音重建方法。在语音重建中,通常需要同时在模型中输入多类声学特征参数,比如共振峰模型需要输入共振峰参数和基频参数,而MELP模型则需要基频、子带语音强度、清浊音标记、残差峰值、帧能量等参数。理论上,模型特征参数越多,重建后语音自然度和可理解的程度越好;但与此同时计算量也会增大,重建后的语音质量受不同特征参数估计是否准确影响很大。所以,参数的选取对重建后语音的效果至关重要。然而,从MFCC中估计语音幅度谱是欠定问题。为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。这种方法不仅证明了L1/2稀疏约束方法在语音转换上有很好的逆重构性能,而且说明了MFCC特征能更好的模拟人耳的听觉特性。其次,本文提出了一种采用双向长短时记忆网络的情感语音变换方法。传统的语音情感转换主要包括神经网络(Neural Networks,NNs)、高斯混合模型(Gaussian Mixture Model,GMM)、非负矩阵分解(Non-negative matrix factorization,NMF)等方法。其中高斯混合模型和非负矩阵分解只适合特征之间关系的线性表示或者简单的分段线性表示。且GMM的转换函数是由局部回归函数和组成,模型中采用多个高斯核,因此高斯混合模型很容易产生训练数据过拟合。与高斯混合模型不同,神经网络方法训练出的转换规则是非线性的,因而其转换效果通常要比GMM模型更好。但是神经网络模型对于输入的每帧语音特征视为独立的输入特征,无法刻画语音序列的帧间相关性,而双向长短时记忆网络(BLSTM)模型可以很好表达时序相关性。因此,本文提出采用BLSTM模型实现中性语音特征到情感语音特征的映射,然后通过L1/2稀疏约束方法实现将转换后情感特征重建悲伤、愤怒、高兴等情感语音。实验结果表明,使用本方法得到的情感语音有较好的自然度。
其他文献
近年来,科研工作者们采用各种敏感性的探针来构建荧光试纸,以实现对金属离子的比色检测,但是如何设计一种随着目标物量的变化而呈现多颜色变化的试纸,仍然是一个艰巨的难题。
在当今知识经济时代,创新驱动型经济增长方式已成为提升国家竞争力的必经之路,技术创新则成为竞争力的重要源泉和手段。中国经济正处于转型阶段,由要素投入为主导向创新驱动
抽水蓄能电站作为当前电网最有效的调节器,其运行机组水泵水轮机要求具备更高的稳定性与灵活性,但当前机组存在的水轮机模式的“S”特性区与水泵模式的驼峰区两大不稳定区域
目前,在工业化发展中过度使用化石燃料使得人类面临环境(CO2排放量过多)和能源(不可再生能源缺乏)两大危机。而电化学技术在解决这两大危机方面具有非凡的潜力。一方面通过电化学
伴随着我国高等教育的发展和高校收入渠道的多元化,为了进一步提升高等学府的整体水平,许多高校实施了绩效工资制度。但是由于制度本身的缺陷、运行的多方阻力以及高校人群的
证券错误交易是指在证券市场中因市场参与者行为或交易系统故障所造成的、在价格或其他交易要素上表现出明显错误、与交易主体的交易意图不符,并对证券交易价格形成机制有不
目的:构建鲍曼不动杆菌纤连蛋白结合蛋白Omp33-36、Ton B抗原B细胞表位和T细胞表位,检测相应细胞表位的免疫效果,为制备单克隆抗体和研制鲍曼不动杆菌亚单位疫苗奠定基础。方
公用房是高等学校立身之本和发展之源,在高等学校教学科研蓬勃发展,规模迅速扩张的今天,公用房的保障作用更为显现。高校的办学效益提高,可持续和跨越式发展的实现无不以公用
“社会弱势群体”是指在社会人群构成中难以依靠自己的能力保持个人或家庭最基本的生活,为了维持生计仍需依赖国家和社会给予支持和帮助的社会群体。弱势群体人员在全国范围
目的探讨维持性血液透析(MHD)患者血脂联素(ADPN)改变及与心脑血管事件的关联。方法MHD患者178例,正常对照组30例,分别测定血常规、肝肾功能、电解质、空腹血糖、CRP、PTH及