藏语多任务多方言语音识别

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:luwang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高斯混合-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)在语音识别任务上取得了极大成效,但是在模型训练和系统搭建上比较复杂。由于藏语多方言等低资源语言的语言学研究并不充分,导致上述经典模型的应用受到限制。近年来随着神经网络技术的发展,迁移学习和多任务学习方法广泛应用于模式识别的多个领域,基于端到端的语音识别技术也在包括汉语和英语等主流的语言上取得重要进展,但是在藏语多方言多任务上尚未有深入的研究,因此,本文主要探讨了基于端到端技术的多任务学习和迁移学习在藏语多方言多任务语音识别上的应用。1.基于WaveNet-CTC模型的藏语多方言多任务识别链接时序分类技术丢弃了 GMM-HMM中复杂的预处理和后处理操作,将语音识别任务直接建模成序列概率最大化问题,并通过前后向算法降低模型计算复杂度。WaveNet模型则能够有效增加感受野而不损失信息,因而能够充分利用背景信息。本文基于WaveNet-CTC模型对比了单任务和多任务(两任务和三任务)模型的性能,实验结果表明两任务模型相比单任务在语音识别和方言或者说话人识别上均有明显提升,三任务模型则在语音识别任务上相对退化。2.融合注意力机制的WaveNet-CTC模型在藏语多方言多任务识别上的应用注意力机制能够赋予与输入更相关向量以更大权重,来充分利用上下文相关信息,其在语音识别领域已经成为研究热点。本文在WaveNet-CTC模型上引入注意力机制,同时为了减少模型的计算量增加了注意力窗口机制,并对比了注意力机制作用的不同位置带来的性能差异。实验结果表明基于高层注意力机制的模型进一步提升了藏语语音识别、方言和说话人识别任务上的性能。3.基于迁移学习的藏语语音识别考虑到卫藏方言和安多方言之间的特点和共性,本文通过模型的迁移学习开展了基于卫藏方言拉萨话语音识别模型迁移学习安多牧区话语音识别的研究。实验结果表明迁移学习可以有效地利用任务之间的潜在相似性提升目标任务的识别性能。4.藏语多方言多任务识别系统基于Tensorflow等深度学习框架搭建了实时藏语多方言多任务识别系统,该系统能够通过麦克风输入藏语语音,并自动调用训练好的基于注意力机制的WaveNet-CTC模型输出识别结果-语音内容和方言标识。
其他文献
简述了发展林下经济的意义和现状,揭示了目前还存在基础条件差、模式和品种单调、发展规模小、管理水平低等诸多困难和问题,并提出了发展林下林缘经济的相关对策。
由于防火林带的建立、可燃物的处理是人为干扰自然生态系统,这必将引起生态环境的响应,尤其是土壤环境。通过研究可燃物的不同处理方式前后土壤微生物量指标的变化,来综合评价可燃物不同处理方式对防火林带土壤环境的影响情况。
目的 观察输尿管镜下钬激光碎石术治疗输尿管中下段结石的应用效果。方法 选取2015-01—2016-12间在睢县人民医院接受治疗的56例输尿管中下段结石患者,均实施输尿管镜下钬激
为明确节水栽培条件下钾素对冬小麦生长发育、养分吸收利用和产量的影响,指导生产上选用钾高效品种,提高钾肥利用效率,以高产小麦济麦22(JM22)、优质麦藁优2018(GY2018)和抗旱品种石麦22(SM22)为材料,设置K1(90 kg·hm-2)、K2(135 kg·hm-2)和 K3(180 kg·hm-2)3 个钾(K2O)水平,采用裂区试验设计,研究了供钾水平对冬小麦生长发育特性、物质生产
学位
目的探讨改良半隧道切口复合小梁切除术治疗原发性闭角型青光眼的效果。方法选择济源市卫生学校附属医院2015-03—2018-04间收治的108例原发性闭角型青光眼患者,按术式不同分
抗疫精神是党和人民极为宝贵的精神财富,是最生动的爱国主义教材,其内涵与社会主义核心价值观具有内在一致性。青年学生作为大学生主体人群,是党和国家建设的接班人,要通过加