基于深度学习的端到端安多藏语语音识别系统设计

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:kongct_2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于国内外语音识别研究技术的飞速发展,汉语、英语、德语等资源丰富语言的语音识别技术取得了良好的识别结果,特别是端到端技术的兴起避免了多个模块固有的缺陷,降低了语音识别模型的复杂性。然而,藏语语音识别由于其语料库构建困难和方言的特点导致发展缓慢,因此,提高藏语语音识别系统的性能具有重要的研究意义。目前,藏语语音识别面临诸多挑战:第一,尚未拥有权威公开的藏语语料库资源,语料库构建不易;第二,在特征提取方面,目前的特征不能很好地表征藏语语音;第三,藏语语音识别模型仍存在模型训练慢、识别率不高的问题。本研究主要设计了一个基于深度学习的端到端安多藏语语音识别系统,本研究的贡献如下:(1)构建了一个用于连续语音识别的安多藏语语料库,包含10个说话人,共有16000条语句;对构建的语料库进行数据增强,通过实验验证数据增强在藏语数据不足情况下的作用。(2)在数据预处理的过程中,利用Praat软件编写了脚本实现端点检测、切分、标注等功能,并提取了语音信号的语谱图以及40维的Fbank特征,作为网络模型的输入;(3)将循环神经网络与卷积神经网络相结合,能够有效捕捉语音时序上下文信息与频域局部空间信息,构建了声学模型;在此基础上引入联结时序分类机制、注意力机制以及迁移学习思想,提高了模型性能,并构建了基于Web框架的安多藏语语音识别系统;与从零开始训练的模型相比,使用了迁移学习的模型性能要好,在提高速度的同时降低了对硬件的要求,同时证明了从源语言到目标语言的模型迁移训练是可行的,且效果良好、词错误率达到了26.6%;此外,使用混合增强数据集进行实验,与基线相比性能提高了1.7%。
其他文献
结核病(Tuberculosis,TB)是一种主要由结核分枝杆菌(Mycobacterium tuberculosis,M.tuberculosis)感染引起的传染性疾病。预防和控制结核分枝杆菌感染的最佳方式是接种有效的疫苗。卡介苗(Bacille Calmette-Guerin,BCG)虽然能有效保护儿童免于结核分枝杆菌感染,但是随着年龄的增加,其保护效果不断下降。因此,为了控制结核病,我们需要
家庭暴力作为严重的社会问题,一直受到世界各国的广泛关注。在我国,受传统观念的影响以及客观情况的限制,社会及学界对家庭暴力的关注大多集中在妇女权益保护上,对儿童遭受家庭暴力问题有所忽视。近年来,家暴儿童案件的频频曝光,显示出我国在防治家暴儿童问题上存在欠缺。儿童作为身心发育不成熟的个体,家庭暴力对其产生的伤害很大,甚至会产生不可逆转的后果。虽然《反家庭暴力法》的出台打破了固有观念,突出了儿童保护,但
初中函数知识丰富,蕴含数学核心素养内容,而且初中函数不仅是初等函数的重大分支,同时对高中函数的学习也有很大影响,但是对于学生而言,函数内容的学习却非常困难。在核心素养的背景下,数学教学不仅要注重学生知识的学习、能力的发展,还要注重数学核心素养的培养。所以本论文以此立意,探究初中函数的教学,力求以数学核心素养指导初中函数教学,以初中函数教学为切入点来推进数学核心素养的培养。本论文首先通过文献研究法对
中国现代诗歌也叫“白话诗”,起源于清末,相对于古典诗歌,现代诗歌的格式和韵律更加自由。现代诗歌教学是初中语文教学重要的一部分,但因为各种原因,并未成为语文教学的重点。很多教师虽然迫切想提高现代诗歌的教学水平,但不知道如何教给学生正确的鉴赏诗歌方法。为解决这一难题,本文提出应当在现代诗歌的教学中引入接受美学理论。在现今的教学模式下,我们需要拓展学生期待视野的基础,激发学生的定向期待和创新期待,帮助学
藏族鱼棋游戏主要流传于我国甘肃、四川和青藏高原地区,是一种传统的棋类游戏,其规则分布局阶段和对局阶段,以围堵在直角区域判定吃子,以棋子比例判定输赢。博弈规则类似于围棋,规模和难度小于围棋。现阶段有益的电子化在线藏棋游戏系统少之又少,为此,若从规则相对简单的藏族鱼棋入手,研发具有博弈功能的藏族鱼棋在线系统,为更好地挖掘、传承和弘扬藏棋文化,为藏棋爱好者提供智能化的藏棋智力游戏平台,以及可以让其他民族
情感是认知过程中重要的一环,使计算机像人一样具有感知各种情感的能力,是人工智能领域的一个全新课题。语音情感识别(Speech emotion recognition,SER)是情感识别领域的重要研究方向,旨在让计算机能够领悟人的情感,实现人与机器之间的顺畅沟通。但语音情感识别领域当前存在诸如:缺乏有效的情感特征集、缺乏有效的情感识别模型等问题。本文从提升语音情感识别模型的识别性能出发,进行了基于深
语音端点检测是一种从掺杂有背景噪声的语音信号中区分出语音和非语音信号的技术,它直接影响着语音识别、语音增强等语音处理技术的性能。因此,语音端点检测算法的研究对语音处理技术性能的提高有着关键性的作用。目前,语音端点检测算法主要有基于特征阈值和基于模型匹配两类。其中,基于特征阈值的端点检测算法通过对比提取的语音信号的特征值和实验前设定的阈值进行比较,从而实现语音和噪声的判定。基于模型匹配的端点检测算法
语音是人与人之间最直接、最自然的交流方式。在现实生活中,语音会受到各种噪声的影响,噪声降低了语音信号的可懂度与清晰度,影响了人们之间的正常交流。语音增强就是针对受噪声干扰的语音而提出的强化语音的一种技术。因此,研究语音增强技术对语音通信、助听器等领域的发展具有重要的现实意义。藏语语音增强是藏语人机交互的基础工作,相对于汉语和英语等语种的语音增强技术,藏语语音增强技术还处于发展阶段。目前,实现藏语语
语音识别作为人机交互的第一步,具有很重要的现实意义。在现实生活中,语音往往会受到噪声、混响以及说话人的干扰,使得语音识别系统性能降低。因此,为了解决上述问题,提高语音识别系统对于含噪语音的识别准确率,本研究针对孤立词与连续语音分别提出相对应的深度神经网络模型,从而用于鲁棒性语音识别。本研究的贡献如下:(1)针对孤立词鲁棒性语音识别,提出了迁移自编码器双向循环神经网络模型TAEBN。为了提取含噪语音