基于序列记忆神经网络的藏语声学建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xylzsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的兴起,作为语音识别系统的核心部分,声学模型经历了从基于高斯混合模型声学建模到基于神经网络的声学建模的发展历程,其识别性能也取得了质的飞跃。藏语是我国一门重要的少数民族语言。与汉语、英语等主流语言相比,藏语作为一个小语种,藏语语音识别仍然面临许多挑战。在此背景下,本文从藏语声学模型的结构出发,展开了系统而全面的研究。一方面结合藏语和汉语的共同发音特点,优化建模单元,既提升了识别率,又解决了藏汉双语语音识别问题。另一方面,本文也提出了一些方法来增强声学模型的鲁棒性以及加快声学模型的训练速度。首先,本文研究了基于端到端技术的藏汉双语混合声学建模方法。在藏语语音识别任务上,分别探索不同建模单元对藏语声学模型的影响。在已有发音字典的情况下,本文将链接时序分类技术(Connectionist Temporal Classi-fication,CTC)与高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden MarkovModel,GMM-HMM)、发音字典等先验知识结合起来,进一步优化端到端的声学模型,识别率获得进一步提升。在藏汉双语混合语音识别任务上,藏汉联合发音字典的缺乏使得传统的基于隐马尔科夫模型的声学建模方法不再适用。本文提出采用端到端的混合建模方法,以字取代音素作为建模单元,训练声学模型,共享隐层。然而,在资源稀少情况下,建模单元的稀疏性是声学建模过程中不可避免的问题。本文提出两种方法解决建模单元的稀疏性问题。其一,汉语音节取代汉字成为建模单元。其二,采用加噪算法来增加藏汉双语语音。实验证明,在藏汉混合识别任务上,基于上述方法的实验结果获得了明显提升。其次,针对低资源情况下端到端声学模型的鲁棒性问题,本文提出采用多任务学习的策略来增强声学模型的鲁棒性。分别采用音素、藏字作为多任务学习的候选。此外,本文还将基于CTC准则的多任务学习与交叉熵(Cross Entropy,CE)准则结合起来,采用绑定的三因子作为建模单元,以此作为附属任务进一步优化端到端的声学模型。实验结果证明,在藏语语音识别任务上,上述方法相比基于迁移学习的声学模型,藏字识别率获得明显提升。最后,本文提出采用前馈序列记忆网络(Feedforward Sequential Memory Net-works,FSMN)作为端到端的声学模型进一步加速声学模型训练。前馈序列记忆网络通过记忆块对时序信号的长时相关性建模,从而避免了循环神经网络双向记忆时间步耗时等待的问题。其具有抽头延迟结构的记忆模块使得基于前馈序列记忆网络的端到端的声学模型训练过程更加快速稳定。实验表明,在藏语语音识别任务上,上述方法在识别率下降0.19%的前提下,声学模型的训练速度提高了至少5倍以上。
其他文献
采用高精度卫星导航速度、位置信息以及星敏感器提供的姿态信息设计十表冗余捷联惯组的标定模型,包含陀螺和加速度计的零次项和标度因数,对卫星和星敏感器辅助的冗余激光陀螺
前些时候,央视策划的“你幸福吗?”系列报道,将广大受访者对幸福的理解与感受硬生生地呈现在观众眼前,引起了连锁反应。央视记者不无突兀地提问,既从不同侧面把国人当下生活的原生
微博微信等网络新媒体在信息分享和传播过程中发挥着越来越重要的作用。作为一种非正式的外部治理机制,网络新媒体在公司的外部治理中的影响愈加显著。网络新媒体的企业外部
<正>所谓沟通,是利用语言、文字或符号,将个人的思想与意见,传达与他人之行动。它是一种双向交流,即双方彼此开诚布公地把自己的思想、观念、需要传达给对方。通过沟通可以及
仔猪的饲养与管理是养猪的首要环节,仔猪成活率与长势将直接决定后期育肥猪的规模与产量,对养殖出栏率产生较为直接的影响。本文分析了仔猪的生理特点,针对仔猪的饲养与管理
一、马铃薯收获与地膜回收联合作业装备研发的必要性自2015年我国启动马铃薯主粮化以来,马铃薯成为继稻米、小麦、玉米外的又一主粮,马铃薯在农业中的地位不断提升,高产高效
目前,很多新媒体服务在图书馆界得到了广泛的应用与推广,新媒体平台也已成为图书馆进行阅读推广的重要阵地。高校图书馆可以借助微服务平台的优势,进一步提升微服务的质量和
教材:义务教育课程标准实验教科书(北师大版)数学一年级下册“位置与顺序”第三课时。
栀子苷是茜草科(Rubiaceae)植物栀子(Gardenia jasminoides Elli)的干燥成熟果实中含有的主要功能成分,不同产地栀子中含量在3%-6%之间,具有利胆、消炎、镇痛、降压等多种药