基于LSTM-CTC的藏语拉萨话语音识别系统

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:landingyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着科学技术的发展,计算机及其它智能设备逐渐得以普及。语音是人与人之间最直接的交流方法,所以人机语音交互一直是相关研究人员研究的热点。由于DNNs的应用,ASR的性能得到了极大的提高。目前大语种的语音识别已经取得了很好的效果,但对于像藏语这类小语种的识别还较少。但建设一个语音识别系统仍然是一个具有挑战性的任务,需要各种资源、不同的训练阶段和专业知识。与传统基于隐马尔可夫模型的语音识别相比,端到端语音识别模型结构单一,不需要区分声学模型和语言模型,不需要发音词典。现阶段端到端的语音识别系统主要有两种类型:CTC(联结时序分类)和Attention模型。本文采用基于LSTM-CTC的端到端方法进行声学建模,进行藏语拉萨话的语音识别。为了消除预先生成帧标签的需要,采用联结时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。使用WFSTs进行解码,它能有效的将词典和语言模型结合到CTC解码中。文中以音频的特征参数作为声学模型的输入,输出为音素序列的概率,最终实现基于LSTM-CTC的藏语语音识别。实验结果表明,在现已有的藏语数据集,基于端到端语音识别结果比传统的DNN-HMM方法效果好。与传统方法相比,它不需要使用GMM-HMM来进行对齐操作。根据实验结果,基于CTC技术的藏语语音识别最好的Syllable-ER为18.71%。
其他文献
直拍横打,这项卓而不群、横空出世的新技术源于80年代末,发展于整个90年代,经过刘国梁、马琳、王皓三个代表人物的淬炼,现在正逐步走向完善。通过拉、打、带、挑、撕等技术的
目的探讨经枕下乙状窦后入路(retrosigmoid craniotomy, RSC)切除的听神经瘤,术后面神经功能保留的相关影响因素。为临床切除听神经瘤并保留面神经功能的完整性提供相应的依据。
目的:观察彝药米太勒治疗慢性萎缩性胃炎的临床疗效。方法:将64例慢性萎缩性胃炎患者随机分为两组,治疗组32例采用彝药米太勒配红糖煎服治疗,对照组32例采用口服西药三联疗法
以聚醚多元醇和甲苯二异氰酸酯为主要原材料,三乙醇胺和二月桂酸二丁基锡为催化剂,蒸馏水和三氟三氯乙烷为发泡剂,并加入匀泡剂和开孔剂制备软质开孔聚氨酯泡沫塑料,通过碱液
<正>【简介】苏薇,1992年职高服装专业毕业留校工作。26年的教育生涯中,她积极参加美容美发行业组织的技能培训、交流、参观、体验等活动,成为国家级美容专业技能考核题库编
会议
目的:探讨299例舌下腺囊肿(Plunging ranula)患者住院费用的特点及影响因素。研究舌下腺囊肿病人住院费用差异的影响因素,为降低患者医疗费用负担及控制医疗费用增长寻找有效
钢柱筒架交替支撑式液压爬升整体钢平台模架体系是为超高层建筑核心筒结构施工服务的新型模架装备。爬距是这一模架体系的关键施工技术指标,但目前的这种模架体系,只能进行一
全麦食品富含丰富的营养成分,在营养组成上比传统小麦食品更加丰富和多样,将小麦的全部营养成分彻底利用起来,未造成资源的浪费。随着我国的经济水平和科技水平的不断提高,消
<正>陈云同志是我们党老一辈无产阶级革命家,党和国家的卓越领导人,杰出的经济理论家和财经专家。新中国成立后,陈云长期主持财贸工作,他把马克思列宁主义财政经济原理与中国
会议
期刊