基于子空间的声学模型及自适应技术研究

来源 :解放军信息工程大学 | 被引量 : 5次 | 上传用户:visualhoxygen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号位于一个高维空间中,受发音上下文、说话人、说话环境等因素的影响,它存在大量的不确定性。如何根据有限的训练数据得到精确的声学模型,如何根据少量的自适应数据对其进行调整、使之与测试数据相匹配,一直是连续语音识别中研究的热点和难点问题。子空间方法通过寻找高维数据的低维流形,可以有效地对数据进行降维,降低模型的复杂度,提高模型参数估计的稳健性。本文研究如何利用子空间技术来得到更好的声学模型与自适应方法,主要内容分为以下三个方面:一、背景知识及国内外研究进展。介绍了基于隐马尔可夫模型-高斯混合模型(HMM-GMM)框架的连续语音识别基本原理,分析了现阶段声学建模及自适应方法的研究现状,详述了现有方法的优缺点,并给出了论文的研究内容、研究思路和组织结构。二、基于子空间的声学模型。众多研究表明,语音信号存在一个嵌入于高维空间中的低维非线性流形结构。本文通过寻找声学特征空间中低维非线性流形结构的概率模型,应用流形上的压缩感知原理,研究一种新型的基于子空间的声学模型及其区分性训练方法。主要创新点如下:1、提出了一种基于混合因子分析(MFA)的声学模型。利用多个局部线性的因子分析模型对非线性流形结构进行逼近,得到声学特征矢量基于混合因子分析的先验概率模型,进而利用流形上的压缩感知原理,建立各上下文相关状态的观测概率模型。由于各状态共享相同的流形结构,大大减少了模型参数;借助压缩感知和贝叶斯原理,提高了参数估计的稳健性。文中给出了声学特征空间中MFA模型的迭代训练算法,并详细推导了各状态参数的最大似然估计公式。RM语料库及WSJ语料库上的连续语音识别实验均表明,MFA声学模型优于传统的HMM-GMM声学模型和基于子空间高斯混合模型(SGMM)的声学模型。2、提出了一种基于提升最大互信息(BMMI)准则的MFA声学模型区分性训练算法。通过构造弱辅助函数,推导了各参数的区分性迭代估计公式。为了提高估计的稳健性,通过引入适当的高斯先验分布,分别给出了各参数基于BMMI准则的最大后验估计(MAP)算法。实验结果表明,区分性训练后,MFA声学模型的识别性能得到进一步提升,优于经过区分性训练的传统HMM-GMM声学模型和SGMM声学模型。三、基于子空间的声学模型自适应方法。根据模型参数在说话人与音子维度的相关性信息,结合压缩感知理论与正则化方法,深入研究基于说话人子空间与音子变化子空间的声学模型自适应方法。前者适合于少量语料条件下的快速自适应,后者适合于语料充足条件下的自适应。通过贝叶斯方法将两者的优点进行结合,从而可以在未知数据量条件下达到尽可能好的自适应效果。主要创新点如下:1、利用说话人维度的相关性信息,提出了一种基于压缩感知和说话人子空间的自适应方法。在训练阶段构造一个冗余的说话人基矢量字典,在自适应阶段根据最大似然准则和压缩感知原理,估计未知说话人模型参数的稀疏组合。文中推导了基于匹配追踪与l1正则化方法的两种估计算法,前者速度较快,后者准确性较高。新方法融合了本征音(EV)与参考说话人加权(RSW)方法的优点,通过对坐标矢量引入稀疏约束,解决了子空间维数确定与基矢量选择问题。其待估参数数量较少,适用于少量自适应语料条件下的快速自适应。微软语料库与WSJ语料库上的实验结果均表明,新方法优于EV和RSW方法。2、利用音子维度的相关性信息,提出了一种基于音子变化子空间的自适应方法。假设说话人相关(SD)声学模型中模型参数的变化值位于一个音子变化子空间中。在训练阶段估计一组说话人无关的坐标矢量,在自适应阶段估计未知说话人音子变化子空间的基矩阵。文中推导了坐标矢量和基矩阵的最大似然估计公式,并给出了一种新的声学模型自适应训练方法。由于待估参数较多,该方法适合于语料充足条件下的自适应,在语料不足时极易出现过拟合问题。进一步地,针对这一问题,论文通过各种正则化方法提高基矩阵估计的稳健性。分析了l1范数、l2范数、弹性网、核范数、组稀疏约束和稀疏组LASSO等六种正则化方法及其对基矩阵估计的影响,并给出了一种统一的求解算法。微软语料库和RM语料库上的实验结果均表明,新方法比传统方法具有更高的自适应性能;各正则化方法均能提高其稳健性,其中稀疏组LASSO正则化方法具有最好的性能。3、利用子空间的概率模型和贝叶斯原理,将音子变化子空间与说话人子空间相结合,提出了一种层次化的贝叶斯自适应方法。对音子变化子空间的基矩阵进行说话人子空间分析,利用概率子空间建模,得到模型参数的层次化先验概率模型;根据贝叶斯自适应原理,得到一种层次化的贝叶斯自适应方法。文中推导了各层变量的贝叶斯估计公式,并给出了一种在线说话人自适应方法。进一步,通过一组简化的贝叶斯估计公式将前述各方法的优点相结合,在各种自适应语料条件下均可获得更好的自适应性能。实验表明,无论对传统的HMM-GMM声学模型,还是MFA声学模型,新方法都可以取得很好的说话人自适应效果。
其他文献
在现今的社会中,电力的需求在人们的生活中越来越大,人们的日常生活离不开电力,而在电力系统中,发电企业的固定资产的财务核算以及管理就成为其中的重点和关键,在发电企业中,
本文结合天池抽水蓄能电站主厂房拱脚部位预应力锚固支护工程,对锚杆树脂锚固剂推送技术进行探究。依据蜂窝煤冲压成型的原理,改良推送工具,以PVC套管连接无缝钢管,并在套管
本刊讯1月25日~2月1日,福建省亚热带园艺植物研究中心、漳州市亚热带园艺技术有限公司、福建省农科院花卉研究中心、漳州市花卉研究所、长泰金诺农业科技有限公司、龙海市百
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目前国产的24 h恒温恒流大气自动连续采样器(以下简称采样器)是利用阻力管来达到恒流的目的,但由于受制造技术条件和水平的限制,各阻力管的阻力很难达到一致,生产厂家只能在
班级管理是一个宽泛且很难把握的问题,而技校的班级管理更是让很多班主任头疼不已。很多班主任反映班级管理的许多措施很难实施,我觉得很大的一个原因就是班主任在日常工作中
伴随着智能手机多媒体业务以及之后移动互联网的出现,社会对移动通信高速数据的需求越发巨大。OFDM技术自身频谱利用率高、抗多径衰落和支持自适应调制等特性使它成为当今世
骨性关节炎是骨科临床工作中最常见的疾病之一。其主要病理变化是以退行性软骨的生化及代谢发生了显著的变化,以及关节软骨进行性变性和消失,关节边缘和软骨下骨质的反应性变化
《诗经》是西周文化的浓缩表现,则本文从其中对许多有关不同阶级、不同性别的服装词语的使用入手,察看服装名称体现的浓重的封建社会等级制度;反过来也因所处阶级地位的缘故,考察
1病历摘要患儿刘某某,男,8岁,住院号652950。因全身淋巴结肿大13个月先后3次入院检查。患儿于13个月前因全身淋巴结肿大就诊于我院,当时骨髓细胞形态学(2006—06—28)提示为AML—M2