【摘 要】
:
随着深度学习的发展,说话人识别的研究重心逐渐从基于统计模型的方法向基于深度学习的方法迁移,在识别准确率及鲁棒性上已经全面超越传统的方法。然而,开放场景下的说话人识别因语音受到背景噪声、混响、多人同时说话以及语音时长不一致等复杂声学环境的影响,导致说话人识别模型无法在音频特征中有效提取具有身份辨别能力的特征,使得模型的识别效果欠佳。为了提升说话人识别模型在开放场景下的准确率及鲁棒性,本文就基于深度学
论文部分内容阅读
随着深度学习的发展,说话人识别的研究重心逐渐从基于统计模型的方法向基于深度学习的方法迁移,在识别准确率及鲁棒性上已经全面超越传统的方法。然而,开放场景下的说话人识别因语音受到背景噪声、混响、多人同时说话以及语音时长不一致等复杂声学环境的影响,导致说话人识别模型无法在音频特征中有效提取具有身份辨别能力的特征,使得模型的识别效果欠佳。为了提升说话人识别模型在开放场景下的准确率及鲁棒性,本文就基于深度学习的说话人识别中的关键技术进行研究,提出了新的帧级特征聚集策略以及融合损失函数。首先,为了增强帧级特征提取网络在开放场景语音中提取高辨别性特征的能力,提出了一种基于Ne Xt VLAD的多尺度帧级特征聚集策略(Ne Xt VLAD-MSA)。将视频分析领域中优秀的局部描述子分组聚集方法(Ne Xt VLAD)引入到帧级特征聚集层中,将深度卷积神经网络(DCNN)隐层中不同时频尺度的、对辨别说话人身份有利的帧级特征聚集成句级特征向量,随后融合起来生成具有说话人身份辨别能力的声纹特征向量。实验结果表明本文提出的Ne Xt VLAD-MSA方法相比已有特征聚集方法取得更好的结果。其次,为了增强说话人识别模型的区分能力以及训练效率,提出将基于小样本学习(Few-shot learning)框架的余弦原型损失(Cosine-Prototypical Loss,CP-Loss)函数与基于附加间隔的Softmax损失函数融合成一个优势互补的融合损失函数,并在小样本学习框架下进行模型训练。使用间隔Softmax损失函数能有效增加不同类别之间的间隔并稳定训练过程,使用CP-Loss能直接对说话人特征空间进行优化,两者融合起来后训练的模型能增强开放场景下的区分能力,并具备更强的鲁棒性。为了验证该融合损失函数的有效性与泛化性能,本文将该融合损失函数用在多种模型中进行实验,实验结果显示使用融合损失相比于只使用其中任一种损失函数获得的等误率平均降低10%以上。最后,本文将所提出的方法集成到统一的模型中,并组织实验与目前已发表的先进的说话人识别模型在Vox Celeb-1测试集上进行横向比较。实验结果显示,在与仅使用Vox Celeb-1训练集训练的模型比较中,本文提出的模型EER和min DCF分别达到了2.53%和0.284,是目前使用Vox Celeb-1训练集训练所能达到的最好结果;在与仅使用Vox Celeb-2训练集训练的模型比较中,本文提出的模型EER和min DCF分别达到了1.43%和0.17,在EER上与使用Vox Celeb-2训练集训练的当前最先进的模型相当,在min DCF上达到了最好的结果,并且本文的模型仅有1.9M参数量,而该对比模型的参数量为13M,是本文模型的6.8倍。
其他文献
装配式建筑的发展能解决我国当前以及未来人工成本上升带来建造成本上升的问题,装配式建筑具有能够实现快速拼装,减少施工现场施工人员人数,节能环保等优点。本文提出一种预制装配式剪力墙水平拼缝U型筋搭接节点连接形式以解决传统U型筋阻挡叠合梁拼装的问题。该水平拼缝处的搭接形式能够减小后浇带高度,施工容许误差大以及可以快速拼装施工。为了验证以及提高预制装配式剪力墙水平拼缝采用新型U型筋搭接节点连接(以下简称“
过渡金属是常见的二氧化碳甲烷化催化剂,其中金属镍凭借转化率高、稳定性能好以及价格低廉等优点成为实验室常用的催化剂。但镍催化剂的单独使用常常会引起金属烧结、流动性亚羰基镍的形成以及碳沉积等一系列降低催化反应速率的现象产生,实验室一般采用催化剂添加剂形成镍基催化剂的办法来解决该问题。La2O3是实验室常用的碱性添加剂,在208~380℃时,Ni/La2O3催化活性高并且有100%的甲烷选择率。然而,目
脑机接口独立于外周神经和肌肉组织通道之外,它为用户大脑与外界环境的交流提供了一种新的方式。电子信息技术和人工智能技术的高速发展,为脑机接口在医疗、军事、家居、游戏等方面的应用提供了有力的支持。然而,由于脑信号本身存在的非平稳性以及不同受试者的脑信号存在一定的差异性,脑机接口训练的模型往往在新的受试者数据上表现不佳。因此,在使用脑机接口系统之前,一般要针对每个受试者进行长时间的系统校正,这已成为限制
大直径泥水盾构在隧道建设中的应用越来越广泛,但其对周边环境的影响较为复杂,尤其对深层土体变形具有较大的扰动。因此,本文依托广州地铁四号线南延段大直径泥水盾构施工工程,通过理论分析和现场实测方法,对大直径泥水盾构施工引起深层土体沉隆变形展开研究,主要工作和成果如下:1、利用集中力作用下的土体变形解,结合了盾构刀盘附加推力、盾壳与土体摩擦力、盾尾注浆压力,得到大直径泥水盾构施工引起的土体沉隆的计算公式
肿瘤,外伤,外科手术或炎症性疾病会导致严重的骨缺损,而骨骼的自我再生能力有限,需要大量的外科手术进行重建。然而临床应用的许多疗法,如自体或同种异体移植或假体材料均具有相当大的缺点。为了满足临床需求,迫切需要研发一款有效促进骨骼原位再生的骨组织工程支架。骨是一种具有特殊结构的有机/无机天然复合材料,因此从仿生角度来看,有机和无机成分的结合是制造类似于骨组织材料的自然策略。海藻酸钠(Alg)和ε-聚赖
环烯烃类共聚物(Cyclic Olefin Copolymer,COC)是一种新型高分子柔性透明聚合物,在射频、微波、毫米波乃至THz区域(0.1THz–10THz)呈现出较稳定的相对介电常数和极低的介电损耗因子,尤其适合于电磁波传输损耗较大的毫米波甚至太赫兹电路的应用需求。本论文主要基于COC材料,开展微波毫米电路设计和应用研究。主要研究内容如下:1)透明低损耗材料COC的基本特性研究。包括CO
茶多酚是茶叶中一类重要的活性物质,具有抗氧化、降血脂、降血糖、抗菌等功能。然而,天然茶多酚存在着易氧化、不稳定、脂溶性差等缺点,严重影响了茶多酚在食品工业中的应用。通过分子修饰等方法改变茶多酚的理化性质是改善茶多酚性质的重要途径。因此,探寻一种既能保持茶多酚稳定性又能提升其活性的改性方法有重要意义。本课题以茶叶为原料,进行茶多酚提取和酰化改性,并探究了改性对茶多酚性质的影响,主要研究内容如下:1.
随着人类命运共同体理念在国际社会不断受到关注,其国际传播在国内学界成为新的学术热点。关于人类命运共同体理念的对外传播,国内媒体主动设置人类命运共同体议题的能力尚需加强。作为科技部主管、科技部国外人才研究中心主办的外宣期刊,《国际人才交流》积极策划相关选题,充分发挥外国专家、国际组织等优势,在人类命运共同体理念的对外传播中发挥了独特的舆论引导作用,贡献了积极力量。
随着信息化时代的发展,人们的生活越来越朝着方便快捷安全的方向进行。基于人工智能的迅速发展,越来越多的生物识别技术发展起来。从传统的钥匙、密码锁再到先进的生物特征识别技术,如人脸识别、指纹识别、指静脉识别、虹膜识别等。这些先进的生物特征技术有其独特的优势:不会被遗忘或丢失,安全性更高,更加方便等。但是随着受众群体的增多,数据量会越来越大,那么如何更好的管理庞杂的数据、更高效处理这些非结构化的数据以及
硅油风扇离合器是一种以硅油流体作为工作介质,利用硅油的粘性剪切力来传递扭矩的机械装置。它可以根据发动机热状况来随时调节发动机的冷却强度,减少发动机的功率损耗,提高发动机寿命,改善发动机的经济性,具有广阔的应用前景。本文主要通过CFD数值计算方法与试验测试的方法对硅油风扇离合器滑差进行了分析与研究。基于一款双面槽型硅油风扇离合器三维实体模型,考虑硅油风扇离合器在工作过程中的热平衡与力矩平衡对滑差的影