基于GRU-HMM声学模型的湖南方言辨识

来源 :湖南师范大学 | 被引量 : 1次 | 上传用户:asdf1aasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代,方言辨识开始逐渐被越来越多的人们重视,各国的研究人员对不同种类方言的特征和分类模型进行了大量研究,同时方言辨识在刑事案件中犯罪嫌疑人的归属地判定方面有重大贡献。中国是一个多民族的人口大国,各民族各地区的语言都有些许不同,因此,为了能够更好的推广语音识别技术的应用,着眼于方言辨识的研究是非常有意义的。早年较为常用的声学模型主要有隐马尔科夫模型(HMM)和人工神经网络(ANN),像BP神经网络和RBF神经网络等,并且至今都在沿用以及不断优化中。而近年来,随着深度学习在语音识别领域中大量成功实践,对多层神经网络采用深度学习算法,可以得到更好的初始化权值,使得网络在最佳的极值点处能够更快完成收敛,从而改善了传统神经网络的不足。本文通过对湖南长沙、株洲、衡阳、湘潭四地方言进行研究,以MATLAB为实验平台,提出了一种基于门控循环单元(GRU)神经网络和HMM结合的声学模型,取得了较好的识别效果,主要研究内容包括:本文对语音特征参数提取进行了研究,针对传统的MFCC特征参数的不足,研究了基于人耳听觉模型的特征参数CFCC的提取。详细介绍了CFCC特征参数的原理和提取方法,分析了耳蜗滤波器带宽、中心频率等参数对提取结果的影响,并比较了不同特征参数用于湖南方言识别的效果。仿真实验中,分别加入了高斯白噪声、汽车噪声和说话嘈杂噪声,并在不同的信噪比条件下进行了实验。实验结果表明:不同信噪比条件下,CFCC特征参数的识别性能较好;在汽车噪声和说话嘈杂噪声的条件下,其优势更为明显。建立了基于GRU神经网络和HMM结合的声学模型。首先将提取的特征参数通过GRU神经网络进行训练,同时会得到GRU神经网络的初识别率,接着通过HMM的前向-后向算法继续训练,并不断优化更新模型,最后通过维比特解码得出最终识别率。将该模型分别与传统GMM-HMM声学模型和基于BP神经网络的声学模型进行了方言辨识对比实验,实验过程加入了不同信噪比的高斯白噪声并提取了不同的特征参数。对比实验结果发现:GRU神经网络不仅比传统的声学模型辨识效果好,也优于BP神经网络,可提高方言辨识系统的鲁棒性和识别率。
其他文献
与国家提供的助学贷款、创业贷款不同,校园贷款以其手续简单、方便快捷受到大学生的追捧,但校园信贷准入门槛目前还没有明确的规定,缺少相应的监督管理规范,这就让原本有利于
针对目前铁路施工中存在的各种环境污染问题,分别进行分析和探讨。结合具体的铁路施工项目提出控制环境污染的对策,对相关的铁路施工具有一定的参考价值。 Aiming at the va
现代社会的生存异化和对公共精神的一味追求不仅加剧了人们的自我迷失、自我疏离危机,同时也催生和强化着人们对真实自我的渴望。然而,在日常生活的大部分时间内,人们无法完
2014年被称为网络自制综艺节目的元年,各大视频网站纷纷将战略重点放在自制网综的创新研究上。多屏融合背景下网综形态创新发展旺盛,在此过程中,观众的收视习惯发生了翻天覆
Hammerstein和Wiener系统分别属于输入非线性模型和输出非线性模型,因为它们具有结构简单和灵活多变的特点而在辨识领域中广受青睐。最小二乘算法是一种经典的辨识算法,这类
医学形态学教学中有诸多教学方法值得借鉴,其中通过利用信息化手段,将数字化图像与教学内容相结合,变革病理学实验教学模式,有效地提高了教学效果,起到教学相长的作用,使其更
基于《中国老年人生活状况第四次调查》结果,首先从老年人的健康状况、经济状况、社会参与及精神文化生活状况4个方面入手分析我国人口老龄化的现状及存在的关键问题,然后基
互联网在中国的发展历程可以大略地划分为三个阶段:第一阶段为1987—1993年,是研究试验阶段。这个阶段的网络应用仅限于小范围内的电子邮件服务。
鼠李属隶属鼠李科,在鼠李属的范围及属下种的分类上存在着异议。在进行山东林木种质资源调查时,采集到260余份鼠李属植物标本,对这些标本进行分类鉴定,同时对山东鼠李属植物进行
糖尿病(Diabetes Mellitus, DM)是一组以慢性血糖水平增高为特征的代谢性疾病,是由于胰岛素分泌和(或)作用缺陷所引起。近年来糖尿病发病率持续增高,人们日益对糖尿病及其并