基于神经网络的藏语语音增强方法研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:wufala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人与人之间最直接、最自然的交流方式。在现实生活中,语音会受到各种噪声的影响,噪声降低了语音信号的可懂度与清晰度,影响了人们之间的正常交流。语音增强就是针对受噪声干扰的语音而提出的强化语音的一种技术。因此,研究语音增强技术对语音通信、助听器等领域的发展具有重要的现实意义。藏语语音增强是藏语人机交互的基础工作,相对于汉语和英语等语种的语音增强技术,藏语语音增强技术还处于发展阶段。目前,实现藏语语音增强主要采用的是传统语音增强方法,比如谱减法等。传统语音增强方法原理简单易实现。然而,传统语音增强方法大多基于噪声估计进行带噪语音的增强,这使得其对含有非平稳噪声的语音信号增强效果不佳。本文在实现传统语音算法基础上,将其与基于神经网络的语音增强算法进行比较。为了进一步提升低信噪比下带噪藏语语音增强的性能,本文创新性地提出了基于注意力机制级联卷积循环神经网络的藏语语音增强方法。相较于传统藏语语音增强方法,该方法能够自动深入地学习带噪藏语语音与纯净藏语语音之间的非线性映射关系,在一定程度上提高了低信噪比、非平稳噪声环境下的语音质量。首先,通过注意力机制高效地感受语音信号的全局频域相关性,提取时频图中存在的非局部相关性的谐波信息;其次,利用卷积神经网络具有良好的局部特征提取能力,更好地恢复藏语语音信号中的高频成分;再次,使用循环神经网络捕捉语音信号里的时序依赖关系,将不同时间段的局部特征进行关联,进一步提高语音增强效果;最后,将本文提出的方法与传统语音增强方法的增强性能进行对比,验证了本文方法的有效性。实验数据表明,与传统方法相比,基于神经网络的语音增强方法在主观评价和客观评价中均有更好的表现。
其他文献
目的:了解HIV/AIDS合并AKI患者临床特征,预后分析及中医证型的研究。方法:选取2018年1月至8月在新疆医科大学第八附属医院就诊的83例HIV/AIDS合并AKI患者,按照是否抗病毒治疗分为两组进行随访2年,记录相关临床资料,CD4+T计数、血清肌酐(Scr)、尿素(UREA)、尿酸(UA)水平、患者预后及中医证型。结果:(1)83例HIV/AIDS合并AKI病人中,再次住院患者63例,构
结核病(Tuberculosis,TB)是一种主要由结核分枝杆菌(Mycobacterium tuberculosis,M.tuberculosis)感染引起的传染性疾病。预防和控制结核分枝杆菌感染的最佳方式是接种有效的疫苗。卡介苗(Bacille Calmette-Guerin,BCG)虽然能有效保护儿童免于结核分枝杆菌感染,但是随着年龄的增加,其保护效果不断下降。因此,为了控制结核病,我们需要
家庭暴力作为严重的社会问题,一直受到世界各国的广泛关注。在我国,受传统观念的影响以及客观情况的限制,社会及学界对家庭暴力的关注大多集中在妇女权益保护上,对儿童遭受家庭暴力问题有所忽视。近年来,家暴儿童案件的频频曝光,显示出我国在防治家暴儿童问题上存在欠缺。儿童作为身心发育不成熟的个体,家庭暴力对其产生的伤害很大,甚至会产生不可逆转的后果。虽然《反家庭暴力法》的出台打破了固有观念,突出了儿童保护,但
初中函数知识丰富,蕴含数学核心素养内容,而且初中函数不仅是初等函数的重大分支,同时对高中函数的学习也有很大影响,但是对于学生而言,函数内容的学习却非常困难。在核心素养的背景下,数学教学不仅要注重学生知识的学习、能力的发展,还要注重数学核心素养的培养。所以本论文以此立意,探究初中函数的教学,力求以数学核心素养指导初中函数教学,以初中函数教学为切入点来推进数学核心素养的培养。本论文首先通过文献研究法对
中国现代诗歌也叫“白话诗”,起源于清末,相对于古典诗歌,现代诗歌的格式和韵律更加自由。现代诗歌教学是初中语文教学重要的一部分,但因为各种原因,并未成为语文教学的重点。很多教师虽然迫切想提高现代诗歌的教学水平,但不知道如何教给学生正确的鉴赏诗歌方法。为解决这一难题,本文提出应当在现代诗歌的教学中引入接受美学理论。在现今的教学模式下,我们需要拓展学生期待视野的基础,激发学生的定向期待和创新期待,帮助学
藏族鱼棋游戏主要流传于我国甘肃、四川和青藏高原地区,是一种传统的棋类游戏,其规则分布局阶段和对局阶段,以围堵在直角区域判定吃子,以棋子比例判定输赢。博弈规则类似于围棋,规模和难度小于围棋。现阶段有益的电子化在线藏棋游戏系统少之又少,为此,若从规则相对简单的藏族鱼棋入手,研发具有博弈功能的藏族鱼棋在线系统,为更好地挖掘、传承和弘扬藏棋文化,为藏棋爱好者提供智能化的藏棋智力游戏平台,以及可以让其他民族
情感是认知过程中重要的一环,使计算机像人一样具有感知各种情感的能力,是人工智能领域的一个全新课题。语音情感识别(Speech emotion recognition,SER)是情感识别领域的重要研究方向,旨在让计算机能够领悟人的情感,实现人与机器之间的顺畅沟通。但语音情感识别领域当前存在诸如:缺乏有效的情感特征集、缺乏有效的情感识别模型等问题。本文从提升语音情感识别模型的识别性能出发,进行了基于深
语音端点检测是一种从掺杂有背景噪声的语音信号中区分出语音和非语音信号的技术,它直接影响着语音识别、语音增强等语音处理技术的性能。因此,语音端点检测算法的研究对语音处理技术性能的提高有着关键性的作用。目前,语音端点检测算法主要有基于特征阈值和基于模型匹配两类。其中,基于特征阈值的端点检测算法通过对比提取的语音信号的特征值和实验前设定的阈值进行比较,从而实现语音和噪声的判定。基于模型匹配的端点检测算法