基于深度学习的语音识别应用研究

被引量 : 97次 | 上传用户:lvjieidd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能家居、车载语音系统以及各种语音识别软件流行,语音识别逐渐走进人们的视野,凭借其实用性准确性得到了广大用户的喜爱,同时语音识别作为人机交互的重要接口,成为人工智能领域研究的重点。在大数据的背景下,深度学习得到长足的发展,由于它对海量数据超强的建模能力,被广泛应用与图像、语音识别,并取得了惊人的效果。考虑到理论意义和实用价值,在深度学习的基础上研究语音识别是一个可行的方向。深度学习是一种多层非线性变换网络,通过大量的有监督参数调整计算来建模数据间的复杂关系。本文详细介绍了语音识别以及深度学习的基本原理,然后阐述了怎样将深度学习高效的应用与语音识别中。1、基于深度神经网络的声学特征提取研究深度神经网络是一种有监督训练的多层网络,主要用于分类问题,但是截取它的一部分训练好的网络用于特征转换,新生成的特征在语音识别上相比于MFCC特征也有很好的表现。本文主要从深度神经网络的预训练、参数调整、系统优化方面进行了研究,并在Kaldi平台上搭建了用于语音特征提取的深度神经网络,从MFCC特征中提取鲁棒性区分性更强的语音特征,并用这些新特征训练基于GMM-HMM的声学模型搭建语音识别系统,最好的DNN网络与原始MFCC训练的声学模型搭建的系统相比,在词错误率和句错误率上下降了1.98%和4.21%2、基于深度神经网络的声韵母属性提取研究声韵母属性属于语音属性的一种,它可以看做是语音识别中比声韵母更小的基元,用这种粒度更小的基元更能细致的描述语音现象,而且这种方法在以前语音基于概率统计的基础上加入了语音知识的东西,提高系统的识别性能。本文主要研究了语音属性的基础理论,并从语音属性的提取入手,结合了深度学习的原理,搭建了语音属性提取器,用提取出的语音属性搭建了基于GMM-HM M和基于DNN-HMM的声韵母识别器,通过与MFCC搭建的声韵母识别器比较,在声韵母识别率上分别有0.65%和1.37%的提升,通过与MFCC搭建的语音识别器比较,在词识别错误率上有5.61%的下降。3、基于深度学习的声学建模研究有监督的深度网络本质上是区分性模型,通过用建模能力强大的深度网络取代浅层GMM模型做状态输出,并与HMM模型结合训练声学模型。在Kaldi上分别实现了基于GMM-HMM、基于DNN-HMM和基于CNN-HMM,并在863语料上通过实验证明了基于DNN-HMM和基于CNN-HMM的声学模型搭建的系统比GMM-HMM的系统在词识别错误率上分别有7.98%和9.01%的下降。并对三种方法进行了比较分析。
其他文献
在当今社会,随着智能移动终端的高速发展与普及,移动互联网产业正逐步赶超传统互联网产业,成为人们生活、工作、学习中不可或缺的一部分。现在人们已经可以随时随地获取信息,
以未经浓缩处理的过氧化氢异丙苯(CHP)为原料,通过动力学实验考察了不同类型的阳离子交换树脂催化CHP分解制苯酚的催化活性,实验表明,干型树脂比湿型树脂具有更高的催化活性.为了该
<正>海军航空系统司令部正在研究工业界就研制先进的对抗发射机所介绍的几种方案,以为开始执行一项发展计划作好准备。该司令部向工业界宣告,它计划研制二种能覆盖
期刊
机器学习是人工智能领域的一个重要学科。近年来,深度学习作为一类新兴的多层神经网络机器学习算法缓解了传统训练算法容易陷入局部最小值的问题,成为机器学习领域的热门方向。
自上世纪60年代以来,集装箱运输凭借其在装卸效率和运输质量方面的优势而成为不可替代的主要运输形式,集装箱码头也因此得到了快速发展。岸边桥式起重机是完成集装箱码头装卸任
硅钢薄带是一种广泛应用于电力、电子工业的重要软磁材料。相比于传统硅钢片材料,6.5wt%的硅钢薄带具有更高磁导率、低磁致伸缩和低铁损等优异的软磁性能及高频特性,对降低变压
随着移动互联网和电信增值业务的快速发展,电信业务类应用需求量越来越大。传统移动应用开发模式下,应用开发人员需要自己先开发一些应用基础能力,比如界面框架、数据库创建
<正>1概述浙江仙居抽水蓄能水电站地下厂房共安装4套额定出力为375 MW的混流可逆式水泵水轮机,座环蜗壳设备由哈尔滨电机厂有限责任公司提供,由我部进行安装。水压试验按照哈
本论文研究了不同施氮水平下接种丛枝菌根真菌(Arbuscular mycorrhizal fungi,AMF)根内球囊霉(Rhizophagus irregularis)对欧美杨107(Populus×canadensis?Neva‘)生长、光合作用、
网络管理的理念随着信息技术的发展在发生着深刻的变化。其中,由于面向服务体系结构具有松耦合性、良好的互操作性、服务和数据的可重用性、服务组合的易操作性、以及很大程