论文部分内容阅读
随着深度学习技术的快速发展,人工智能领域的应用越来越平民化、生活化。声音作为人类认知这个世界的工具之一,在智能化的今天得到了充足的研究和发展。近年来,随着智能移动设备的普及,越来越多的语音数据得到采集,推动人们拿这些数据做有价值的事。有了大数据的支持,仍旧用传统的统计方法来做说话人识别,存在一定的局限,比如要想达到比较理想的效果,就需要对复杂数据进行更加精准的特征提取,为此急需开发一种新的更有效的方法。深度学习技术天然的适用于大数据量,且在计算机视觉和自然语言处理领域的应用比较成熟,因此本文基于深度学习技术来研究说话人识别算法,以达到对说话人身份、年龄、性别识别的目的。本文的主要工作有:1)提出了一种基于语谱图(Spectrogram)的闭集合文本无关说话人身份识别算法。根据待识别说话人数量不变的基本需求,将其抽象为一个分类问题,采用语谱图作为输入特征,训练卷积神经网络(Convolutional Neural Network,CNN)作为多分类判别模型,实现了说话人身份的识别。该算法与传统的基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)和高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的方法相比,在大型公开数据集上证明了所提算法的识别准确率更高,计算时延更少。2)提出了一种基于身份编码的开集合文本无关的说话人身份识别算法。研究了开集合与闭集合情况下说话人身份识别的区别,针对开集合下说话人的数目不固定的问题,在基于语谱图的闭集合文本无关说话人身份识别算法的基础上,将训练好的多分类神经网络当成特征提取器,对不同说话人进行身份编码从而进行身份识别,与传统方法相比,在人均注册语音数较少时,本方法性能更稳定、识别准确率更高。3)针对说话人年龄、性别识别的需求,延用图特征和神经网络集合的方法,在图特征中尝试了语谱图、梅尔能量谱图(Log-Mel Energies)、MFCC、恒等Q变换(Constant-Q-Transform,CQT)以及谐波冲击波源分离(Harmonic Percussive Source Separation,HPSS),在模型上加入循环神经网络(Recurrent Neural Network,RNN),在同样的非公开数据集上做了对比实验,并结合算法运行的时间复杂度,选择性能更佳的梅尔能量谱图作为输入特征,搭建Http服务实现儿童和成人以及男性和女性的识别,该功能已经嵌入到腾讯在售的王者荣耀智能机器人产品中。