基于深度学习的说话人识别研究与实现

来源 :郑州大学 | 被引量 : 0次 | 上传用户:gba2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的快速发展,人工智能领域的应用越来越平民化、生活化。声音作为人类认知这个世界的工具之一,在智能化的今天得到了充足的研究和发展。近年来,随着智能移动设备的普及,越来越多的语音数据得到采集,推动人们拿这些数据做有价值的事。有了大数据的支持,仍旧用传统的统计方法来做说话人识别,存在一定的局限,比如要想达到比较理想的效果,就需要对复杂数据进行更加精准的特征提取,为此急需开发一种新的更有效的方法。深度学习技术天然的适用于大数据量,且在计算机视觉和自然语言处理领域的应用比较成熟,因此本文基于深度学习技术来研究说话人识别算法,以达到对说话人身份、年龄、性别识别的目的。本文的主要工作有:1)提出了一种基于语谱图(Spectrogram)的闭集合文本无关说话人身份识别算法。根据待识别说话人数量不变的基本需求,将其抽象为一个分类问题,采用语谱图作为输入特征,训练卷积神经网络(Convolutional Neural Network,CNN)作为多分类判别模型,实现了说话人身份的识别。该算法与传统的基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)和高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的方法相比,在大型公开数据集上证明了所提算法的识别准确率更高,计算时延更少。2)提出了一种基于身份编码的开集合文本无关的说话人身份识别算法。研究了开集合与闭集合情况下说话人身份识别的区别,针对开集合下说话人的数目不固定的问题,在基于语谱图的闭集合文本无关说话人身份识别算法的基础上,将训练好的多分类神经网络当成特征提取器,对不同说话人进行身份编码从而进行身份识别,与传统方法相比,在人均注册语音数较少时,本方法性能更稳定、识别准确率更高。3)针对说话人年龄、性别识别的需求,延用图特征和神经网络集合的方法,在图特征中尝试了语谱图、梅尔能量谱图(Log-Mel Energies)、MFCC、恒等Q变换(Constant-Q-Transform,CQT)以及谐波冲击波源分离(Harmonic Percussive Source Separation,HPSS),在模型上加入循环神经网络(Recurrent Neural Network,RNN),在同样的非公开数据集上做了对比实验,并结合算法运行的时间复杂度,选择性能更佳的梅尔能量谱图作为输入特征,搭建Http服务实现儿童和成人以及男性和女性的识别,该功能已经嵌入到腾讯在售的王者荣耀智能机器人产品中。
其他文献
随着科学技术的发展和教育改革的深化,核心素养在高中教育教学中得到渗透,开始以全面培养社会发展的人才为方向,更加注重学生自主发展、创新实践。本文从思维导图出发,积极探
随着我国科学技术水平飞速发展,特别是计算机网络技术已经得到了非常广泛的应用。对于电力生产管理系统安全运行的要求也越来越高,特别是对于新形势下电力安全生产及管理来说
统计中国知网从1999年1月31日到2019年1月31日的相关文献,利用可视化工具CiteSpaceⅤ绘制图谱可以发现,这二十年来小学教师专业发展研究领域的热点主要集中在农村小学教师专
立德树人是指在教学过程中应通过教学内容贯彻德育教育,促使学生的学习能力以及素养意识能够共同发展。当代学生深受传统教学理念以及网络环境的影响,自身的见地以及意识都会
随着上海广播电视台、上海东方传媒集团有限公司(以下简称SMG)业务飞速发展.机构不断壮大.目前已经拥有11个广播频率、15个电视频道、15个数字电视付费频道、10种报纸杂志,以及IPT
随着要素成本上升、环境压力加大和资源约束增强,东部沿海地区的劳动密集型产业会逐渐失去比较优势,大规模向中西部地区转移。劳动力转移与产业转移有着密切的联系,产业转移
经济增值是站在股东的角度定义的企业利润。企业只有经济增值,股东的投资才得以增值。我国在应用经济增值指标中,尚存在价值观念薄弱、忽视资产结构及公司治理结构等问题。应进
研究了固溶和时效对AZ80镁合金断裂行为的影响。采用场发射扫描电镜(FESEM)和光学显微镜(OM),对不同热处理态合金的拉伸断口及断口纵剖面的组织形貌进行了观察分析。研究发现:AZ80
说话人识别技术是一项通过提取可以表征说话人生理特性的语音参数对说话人身份进行认证的技术。近年来,由于研究者们对人工智能技术的不断深入研究,说话人识别技术也因此得到了快速的发展。语音工作者已经把工作重心从研究基于高斯混合模型的说话人识别方法逐渐转移到研究基于深度神经网络的说话人识别方法中。其中模糊神经网络对说话人语音信号具有较强的模型分类能力,而卷积神经网络对数据又具很好的表征能力,基于此,本文通过
目的:探讨氟比洛芬酯复合布托啡诺在剖宫产术后镇痛中的应用。方法:选择我院2017年1~10月行剖宫产术患者85例,根据术后镇痛方案不同分组,对照组单用布托啡诺静脉滴注,观察组