基于循环神经网络的语音识别声学建模研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chessinge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学模型作为语音识别系统的核心模块,随着深度学习的发展,大量深度模型被应用到声学模型中,极大的提升了语音识别性能。其中,循环神经网络由于能够对语音的时序信息进行动态建模,更加适用于语音识别的声学建模。因此,基于循环神经网络的语音识别声学建模研究已经成为当下的热门话题。本文首先介绍了语音识别的基本原理,其次分析了各种循环神经网络的结构以及网络的优化算法,然后就如何改进循环神经网络结构和提高系统的识别率进行了深入研究,主要工作如下:1.研究了基于循环神经网络的端到端声学建模方法。为了提高轻门控循环单元(Light Gated Recurrent Unit,Li-GRU)的网络收敛速度,提出了一种改进的模型(Light Self Gated Recurrent Unit,Li-SGRU),该模型使用Swish激活函数替换ReLU激活函数;其次,为了提高网络训练效率,在Li-SGRU基础上提出了四种变体Li-SGRU1、Li-SGRU2、Li-SGRU3、Li-SGRU4。并且,结合连接时序分类技术验证了上述模型用于端到端建模的有效性,实验结果表明,Li-SGRU不仅收敛速度快,而且识别率也优于Li-GRU;同时,Li-SGRU1的音素错误率相对Li-SGRU有3.1%的降低,并且训练时间也相对减少了12.9%。2.研究了基于循环神经网络的HMM混合声学建模方法。为了提高系统的语音识别性能,研究了基于RNN-HMM的声学模型结构、训练算法,分析了三种特征(MFCC、FBANK、fMLLR)下的五种循环神经网络结构(LSTM、GRU、Li-GRU、LiSGRU、Li-SGRU1)用于HMM建模的有效性,并在Kaldi和PyTorch-Kaldi开源工具上实现了上述模型的建模。实验结果表明,基于fMLLR特征的Li-SGRU1具有更好的识别效果,并且训练效率也更高。
其他文献
核心提示:将发展现代农业与精准扶贫结合起来,带动贫困户参与现代农业产业建设,实施“产业扶贫”,实现农业转型升级$$近年来,浦北县安石镇结合国家扶贫政策和土地流转的政策机遇,因
报纸
在中国特色社会主义进入了新时代的基础上,党的十九大报告明确提出“加快推进体育强国建设”。这表明我国体育的发展要直面新的历史挑战。增强人民体质、实现全民健康,既是我
本文基于合肥工业大学汽车工程技术研究院自主研发的七速对置双离合自动变速器,针对其电液控制系统,通过理论分析计算和计算机建模仿真分析等手段进行了深入的研究,主要内容
由中华全国体育总会联络部主办、国家体育总局对外体育交流中心承办的第十四届全球华人篮球邀请赛于1998年11月26日至29日在北京举行。全国政协副主席万国权、国家体育总局副
研究背景:肺癌是目前人类最为常见的恶性肿瘤之一,进展迅速,预后差,已严重威胁到人类的健康。近半个世纪以来肺癌发病率和死亡率一直呈明显上升趋势,在工业发达的国家更为明
从社会环境因素的负面影响、家庭环境的不良因素、学校教育的缺陷和管理失误等三个方面分析了当代青少年违法犯罪的主要原因,并提出相应的预防对策,即:改善社会环境、家庭环境、
混凝土结构长期暴露在气象环境中,受各种气象因素的影响。湿度影响混凝土结构的耐久性和材料的干燥收缩,目前基于原始湿度数据的研究极少。该文以广州地区为例,阐述了一种由3
目的评价分子靶向治疗药物(molecular targeted therapeutic drugs,MTTD)和干扰素(interferon-α,INF-α)治疗转移性肾癌的疗效及不良反应,为临床用药选择提供依据。方法制定
数学教学要关注学生已有的经验,包括源自生活实践积累的生活经验,以及源自以往数学学习所积累的相关数学活动经验,同时也不能忽视间接经验对于获得数学知识、发展数学思考的
<正>摩擦是一种常见的物理现象,它广泛地发生在接触并发生相对运动的表面之间。据统计,发达国家每年因摩擦磨损导致机械部件失效而造成的损失达GDP的5%左右,同时对能量的消耗