基于声学特征空间非线性流形结构的语音识别声学模型

来源 :自动化学报 | 被引量 : 0次 | 上传用户:ait123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型.将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型.将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型.最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定.文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法.基于RM语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model,GMM)和子空间高斯混合模型(Subspace Gaussian mixture model,SGMM),新声学模型在测试集上的平均词错误率(Word error rate,WER)分别相对下降了33.1%和9.2%.
其他文献
研究了欠驱动自主水下航行器(Autonomous underwater vehicle,AUV)的三维空间路径跟踪控制问题.针对基于虚拟向导建立的三维路径跟踪误差模型,采用滤波反步法设计跟踪控制器,
电子商务是当下最流行的贸易方式,它被广大网友所青睐,为中国创造电子商务环境提供了很广阔的平台。在互联网环境中,展开交易行为其涉及到的行为负累非常少,所以很多年轻人都
新课改实施以来,国家对高中数学教学提出了更高的要求与挑战,构建高效的高中数学课堂成为共识。作者结合国内外的教学研究及自身的教学实践,对如何构建高中数学和谐课堂进行
一个企业的财务状况是企业利益相关者(如股东、债权人、供应商、雇员、政府等)关注的焦点。因为营运良好、财务健康的企业不但可以提高其自身在市场上的信誉及扩展其融资渠道
中华民族特色是中国动漫发展的根基。在世界全球化进程不断发展,全球联系不断加强的现在,动漫作品要处理好"民族的"与"世界的"、"创新"与"传统"的辩证关系,要想在在全球化的
装饰纹样是明清招幌不可或缺的设计元素,本文分析了明清招幌的图形类装饰纹样和文字类装饰纹样的特点,并总结了装饰纹样寓意吉祥、信息含蓄、烘托主体、和谐统一的设计特点,
随着中国加入世界贸易组织后经济加快发展的步伐,思想政治教育工作面临着怎样与市场经济发展相结合,从而促进经济建设发展的新课题。对企业文化的研究是思想政治工作由原来的只
通过预警信息发布系统建设,进一步完善了预警信息发布流程和机制,丰富了发布手段,各级应急责任人、社会公众可以更便捷地获取预警信息,有效提高了全社会的防灾减灾能力。2012
作者就25具(50侧)成人尸体颌面部,测量了腮腺浅部的周界。测量时以耳屏间切迹为基点,分别在外眦、鼻翼下缘、口角和下颌角作Ⅰ、Ⅱ、Ⅲ、Ⅳ连线。腮腺浅部的长度为4.3~7.7厘米