基于深度神经网络的说话人识别研究

来源 :上海应用技术大学 | 被引量 : 0次 | 上传用户:superlhl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来语音识别技术不断发展,应用的方面也越来越多,说话人识别技术作为一种重要的身份认证方法也受到了很多的关注。研究人员将深度学习用于说话人识别并取得了显著的研究成果。本文主要目的是提高与文本无关的闭集下的说话人辨认识别率,以深度神经网络为基础,对说话人识别展开研究。大量实验证明,对基于深度学习的说话人识别而言,说话人的特征参数和声学模型两个方面的优劣严重影响识别系统的好坏,因此本文主要工作在于对特征参数提取的预处理部分的窗口函数进行改进以及优化现有的声学模型用于训练和测试。实验表明,改进后的说话人识别系统的说话人辨识准确率得到了有效提升,证明了本文所用方法是有价值的,对以后的研究工作具有借鉴意义。本文首先介绍了说话人识别的总体框架,以及三种经常用于说话人识别的特征参数的具体提取过程并对比其优缺点。通过分析提取梅尔倒谱系数(MFCC)的过程,为使特征参数包含更多的说话人语音信息,对其中关键的一步语音加窗,即所用的汉明窗提出改进,并用数学分析证明,新设计的窗函数在原汉明窗的基础上对提取语音MFCC特征参数的主要意义在于增加了语音功率谱的斜率、相位等特征信息,实验表明,改进后的语音特征参数可以有效的提升后期训练的效率从而提高说话人识别的准确度。然后,分析了门控循环单元神经网络的不足之处,提出用深度双向门控循环单元(BiGRUs)神经网络作为说话人识别的声学模型。为了解决BiGRUs中梯度消失和过拟合的问题,本文结合Maxout网络和Dropout正则化算法来改进BiGRUs声学模型,提出BiGRUs-DM声学模型。实验结果表明本文改进的BiGRUs-DM说话人识别模型优于BiGRUs、Bi LSTMs等模型,可以有效地提高说话人识别性能。最后,本文将改进后的说话人识别系统,在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的说话人识别系统与传统的基于RNN的说话人识别系统相比,泛化能力更强,识别率更高。
其他文献
目的:对比血液透析滤过、透析联合灌流、高通量透析治疗尿毒症难治性高血压(URH)的疗效。方法:从三家医院共选择60例行维持性血液透析(MHD)的URH患者。随机均分为血液透析滤过(HDF)组
目的通过建立跳台反射法耳鸣动物行为学模型,探讨水杨酸致大鼠耳鸣的主要产生部位。方法 40只健康Wistar大鼠,随机分为实验组和对照组,每组20只。两组动物分别建立跳台反射行
针对起重机检测不便及检测数据有限的现状,设计了起重机安全状态监测系统。该系统运用工控机及PLC控制,采用分布式监测方案,利用方便灵活的无线传输方式,基于Visual C++开发
目的:探讨维持性血液透析的尿毒症患者血尿酸水平与高血压的关系,血尿酸对高血压的影响机制以及控制尿酸水平是否可以成为防治高血压的新途径。方法:选择115例维持性血液透析的
<正>西番莲属(PassifloraLinn),为西番莲科(Passifloraceae)内最大的一个属,约有400个品种,均为草本或木质藤本多年生植物,其中可以食用的约有60余种。西番莲属植物主产美洲
课程改革与课堂文化重建是一种共生共在的互动关系.课堂文化重建的价值诉求是为了促进每个学生的最大发展,使课堂呈现出一种生活常态,充满生命的涌动与智慧的探险.课堂文化重
目的探讨耳鸣患者脑PET18F-FDG代谢的相关脑区。方法通过对41例耳鸣患者及40例健康对照组进行PET-CT检查,行踪剂为18 F-FDG,结果用统计参数图(SPM)软件进行统计分析,确定与耳鸣
随着我国城市化水平的不断提高,以及人民对于美好生活需求的日益增长,以休闲、景观、旅游为主要功能的城市人工景观水体数量和地位正在逐步提升,但是水体状况却不容乐观。因
电石炉气、焦炉煤气及黄磷尾气等工业废气中含有高含量的HCN,现有的吸收法、吸附法、燃烧法、催化氧化法等HCN净化方法存在不足。介绍了HCN催化水解新技术及其工业应用,该法
为充分认知创新团队的固有特质,推动创新团队科学全面管理,首先归纳出创新团队主客体要素的特殊层次属性及研究视角的统一需求,而后创造性地引入并融合界面管理及和谐管理,对