说话人识别中通用背景模型研究及深度学习初探

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qz824zane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是语音信号处理领域重要的研究方向,主要目的是在语音中自动获取说话人身份,在银行、公安系统和智能家居等领域存在广泛应用。当前主流算法基于概率模型,在背景语料充足和信道单一情况下,GMM-UBM模型已经取得良好的性能;但在实际应用中,噪声和信道失配使该方法性能急剧下降,i-vector方法的提出一定程度上解决了这些问题。以上算法都以GMM-UBM为基础,在NIST评测中已经取得了很好的效果,但还有一些问题没有得到解决,主要体现为:一方面,通用背景说话人模型的训练需要大量计算资源和数据,使得方法难以在新的环境下快速部署;另一方面,对于通用背景模型训练的理论依据没有进一步的研究,仅通过采集大量不同说话人的数据来尽可能填充特征空间,对数据的采集工作造成了一定的挑战。本文围绕着文本无关说话人确认,以及通用背景说话人模型语料选择问题进行研究,主要工作以及创新如下:第一,分别构建了基于GMM-UBM模型和i-vector/PLDA方法的说话人确认系统。详细介绍了特征的预处理、UBM模型的训练方法、MAP自适应的过程、i-vector全局差异矩阵的提取方法以及基于PLDA的打分方法。探讨了 GMM模型阶数、MFCC特征维度等对于系统性能的影响。实验结果表明,本文构建的系统已经达到主流开源实现的性能。第二,提出了基于GMM超向量聚类的支撑说话人选择算法。支撑说话人选择算法的核心思路是使选择出的说话人语音特征分布差异尽可能大,以覆盖整个特征空间。因此,本文提出用每个背景说话人的数据分别训练GMM模型,用GMM超向量来近似其特征分布,最后用聚类算法(如K-means等)找出相互之间距离最大的说话人集合。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要使用基准说话人语料的8.8%、8.6%和4.3%即可构建出达到基线性能的UBM,性能优于Hansen等人提出的算法,进一步降低了构建UBM所需的训练时间和计算资源。第三,实现了基于GMM托肯配比的背景说话人语料选择算法。UBM数据选择的另一个思路是直接在帧级层面进行筛选,目前主流算法是Hansen等人提出的IFS(Intelligent Feature Selection)算法,该算法通过动态估计背景语料帧之间的欧氏距离的概率分布,能够使所选的帧之间的欧氏距离尽可能大,但是该算法中存在两个超参,实验显示在不同语料库上这两个超参的值都不相同,难以估计最佳值。本文转变思路,从能够体现音素特性的GMM托肯(Token)着手,实现一种基于托肯配比的背景语料选择算法。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要基准说话人语料的18.1%、10.0%和9.1%就能构建达到基线性能的UBM。第四,构建了基于梅尔语谱图和卷积神经网络的说话人鉴别系统。目前主流的说话人确认方法使用的特征都是类似MFCC的手工特征,已经达到较好的识别效果,但是也存在信息过度压缩的问题。针对这个问题,本文提出使用梅尔语谱图直接作为系统的输入,基于卷积神经网络的说话人鉴别系统。实验结果表明,随着训练数据量的增大,本文构建的系统性能逐步接近并超过传统的概率模型。具体而言,在MASC库上,当训练数据与测试数据比值为8:2时,该方法鉴别率(IR)达到90%;当比例达到9:1时,鉴别率达到95.7%,超过GMM-UBM系统的鉴别率。
其他文献
步进频率连续波是探地雷达常用波形之一,该体制雷达存在的一个严重问题是发射信号直接耦合到接收天线,降低接收机灵敏度,导致接收机前端饱和甚至损坏。针对步进频率连续波体
随着信息互联网时代的高速发展,手机和平板电脑的普及促进了应用程序数量的爆炸式增长。小红书APP凭借优质社区属性和原创笔记,拥有庞大用户群,且在社区分享应用领域有着很大
笔者自1984年以来,采用快速针刺治疗眩晕症24例,且与常规药物治疗24例比较 ,其疗效较好,报告如下.
在对现有棉花剥壳机改进的基础上,应用正交试验研究法对影响棉花剥壳机性能的关键参数—叶片倾角、主轴导程和主轴转速进行了优化研究,发现主轴导程为影响分离率的重要因素,
近年来,由于农村劳动力转移及家庭农场和农村合作社的发展,水稻机插受到越来越多的关注,而双季机插稻高产形成规律不明晰、配套的定量栽培技术相对滞后。因此,于2013~2015年
TCP转录因子家族CYC/TB1簇中成员BRC1在调控植物侧枝发育的过程中发挥重要作用。本研究利用电子克隆结合RT-PCR方法从普通烟草(Nicotiana tabacum)中克隆获得4个Nt BRC1-Like
爱新觉罗·溥仪(1906—1967)是我国清朝的末代皇帝。其皇权思想的滋生、成长、畸形、膨胀和蜕变,都有其深刻的历史和社会根源。特别是他的政治主张,由初始的"敬天法祖""恢复
<正>习近平总书记在十九大报告中提出要贯彻新的发展理念,建设现代化经济体系。在学习和解读十九大报告的精神时,对于什么是现代化的经济体系、如何建立现代化经济体系展开了
随着跨太平洋伙伴关系协议(TPP)的正式签署,中国面临着著作权保护期延长的紧迫国际压力。从维护公共利益角度出发分析我国国情,全面提高保护标准的理由尚不充分;从兼顾私人利
电气化铁路因其具有运输能力强、能源利用率高以及环境友好等优势逐渐成为了中长距离客货铁路运输的主要方式,并在整个世界都已经得到了广泛应用。牵引供电系统作为电气化铁路牵引负荷的动力来源,其电能质量的优劣直接影响着牵引列车的安全运行,并影响着电力系统的电能质量。目前,实测数据是分析和研究电气化铁路电能质量的一种重要工具,但由于完整的电气化铁路电能质量数据中心并不多见,导致电气化铁路电能质量数据存在分布零