基于循环神经网络的声学建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:seacloudnemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于语音的人机交互方式,因便捷高效而越来越受到人们的青睐。语音识别作为其中最关键的技术之一,长期以来都吸引了大量的科研人员。近年来,基于加门循环神经网络的语音识别技术因其卓越的性能表现而逐渐成为主流。然而,不同类型的加门循环神经网络实际性能表现不一,同时深层循环神经网络的多维退化以及其过度建模词间词内依赖关系等问题而极大地损害了模型的性能。另外,单一场景的独立建模严重束缚着实际产品的应用与发展。  本文主要关注循环神经网络在语音识别声学建模中的应用,主要创新成果如下:  1、提出了LSTMP中投影矩阵的主要作用是对稀疏信息重新组合和选择,同时通过共享提升泛化能力。研究并分析了不同类型的加门循环神经网络之间的区别,重点研究了投影层、GRU和LSTM对于历史信息的处理。另外,指出了循环神经网络应用于语音识别时所做的隐含假设,并分析了这些隐含假设在实际应用中遇到的问题。  2、提出了基于多维残差学习的训练算法解决了深层循环神经网络在空间和时间维的退化问题。在空间维引入恒等映射,以确保信息的传递更加畅通。在时间维,利用语音的短时平稳特性通过调节时间粒度解决信息流通不畅问题。同时将行卷积置于顶层来综合多个并行序列的信息。在音素识别和大词汇量连续语音识别两个任务上都获得了相对10%以上的性能提升。  3、提出了词打散算法和改进的低帧率模型解决了循环神经网络的过度建模问题。词打散算法极大地克服了声学模型建模词间依赖的问题,使模型不过分依赖训练数据而推广性得到充分加强,结合相应的语言模型即可应用到新的领域。改进的低帧率模型充分利用全部训练数据,避免了低帧率模型丢失数据的问题,增加了模型鲁棒性,且降低了解码的计算成本和延迟时间。最终在HKUST数据集上获得了7%以上的相对错误率下降。  4、提出了基于上下文无关音节的CTC中文多场景语音识别方法。克服了上下文相关建模天然学习场景信息的缺点,实现了不同场景数据的混合建模。时长更长的音节可以有效建模协同发音,同时具有很好的泛化性和鲁棒性。针对不同采样率的数据融合进一步提出了基于VGG的底层特征提取,并引入了层归一化算法。在窄带电话数据和宽带手机数据上,相对于场景独立建模方法分别获得7%和15%的性能提升,实现了单模型可同时服务多场景的目标。
其他文献
近年来,随着计算机技术的快速发展和Internet的全球化和普及化,对数据库信息的应用受到了人们的诸多重视,数据挖掘技术也因此获得了越来越多的重视和应用。 聚类分析是数
目前,我国绝大多数城市都将城市公交优先通行作为解决城市交通拥堵的第一方案。利用先进的车辆识别技术结合公交优先算法可确保公交车辆优先通过交叉口,从而减少公交车辆通过交
线性系统的同时镇定问题是系统与控制理论中的基本问题,有着重要的理论意义和广泛的应用价值。为揭示同时镇定问题的复杂性,学者们提出了若干公开问题。这些问题表述非常简单,实
肾衰竭是一种严重影响人们生命安全的常见病。在治疗肾衰竭的方式中,腹膜透析是其中一种便捷有效的方式,它的基本工作原理是将腹膜透析液灌入腹腔中,利用患者腹腔为半透膜的
近年来,越来越多的移动机器人已经应用到了物料传输,危险场合下的作业和服务业等方面。这些应用对移动机器人的各种能力,如导航、定位、路径规划和路径跟踪,都提出了严格的要
饮用水中的溴酸盐在国际上被定为2B级潜在致癌物,而且我国的《生活饮用水卫生标准》规定饮用水中溴酸盐含量不得高于10μg/L。因此就迫切需要提高饮用水中溴酸盐浓度的检测技
多目标优化是优化问题的主要研究领域之一,其结果是一组不可进行相互比较的解,一个解对于某个目标来说可能是较好的,但对于其他目标来讲可能是较差的。所有这些解的集合构成P
随着多媒体技术和通信技术的迅速发展,越来越大的图像数据量给存储技术和传输带宽带来了严重的挑战。为了实现有效的存储和传输图像,对图像采取压缩处理。图像压缩就是减少图像
智能建筑的系统集成是充分利用智能计算机技术、通信技术、信息技术,将建筑物内不同功能的子系统按系统之间的相互关联关系在逻辑上、功能上、物理上进行融合,以实现资源共享
坐标测量机是一种集机械、光学、电子、数控技术和计算机技术为一体的大型精密智能化测量仪器,它已成为现代工业检测、质量控制和制造技术中不可缺少的重要测量设备。并联机构