基于深度学习的多说话人语音分离

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：dsclq

【摘要】

：

【作者】

：

王春亮

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

语音分离注意力机制多通道语音分离语音时空编码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术和互联网技术的迅速发展,越来越多的语音交互场景出现在人们的日常生活中,语音分离技术作为语音信号处理领域极具挑战性的研究任务之一对于语音交互系统在实际复杂声学场景中的应用有着重要作用。自从深度聚类和排列不变方法的提出,解决了标签排列问题,近年来,神经网络在语音分离中得到了进一步应用,在说话人不相关的多说话人语音分离任务上的性能获得了提升。时域语音分离网络的提出,解决了之前在频域进行语音分离后波形恢复步骤中相位不匹配问题,构建了更适合语音分离的特征。尽管上述基于深度学习的语音分离方法在近年来发展迅速,不断取得突破性进展,但是仍存在以下问题:第一,目前大部分学者对于单通道语音分离任务的研究都是在不包含噪声的纯净混合语音数据集上进行的,当包含噪声时性能下降明显;第二,目前单通道语音分离方法虽然对语音的上下文的信息进有一定建模能力,但是不具有全局的特征关联能力,没有充分的利用语音的上下文信息和依赖。针对以上问题,本文在包含噪声的混合语音数据集上展开相关研究,结合时间卷积网络和注意力机制提出了一种单通道语音分离方法,在包含噪声的数据集上获得了语音分离性能的提升,并在信噪比较低的情况下有更明显的提升。随着麦克风制作工艺的提升和语音系统对语音质量要求的提升,多麦克风已经逐渐部署到更多的场景下。如何利用麦克风阵列所采集的空间信息来提升语音分离的性能是有重要研究价值的。目前主流的基于深度学习的多通道语音分离方法大部分是直接在在单通道语音分离系统上进行扩展,将麦克风阵列采集的空间信息和语音波形信息拼接到一起作为分离网络的输入,研究者们提出了一些优化空间信息的方法,使多通道语音分离得到了提升。但是仍存在一些问题:第一,当声源角度相差较小时会导致空间信息混叠;第二,语音波形的恢复步骤中仅使用参考通道的波形信息,没有充分利用空间信息。针对以上问题,本文提出了一种在时空编码特征域的多通道语音分离框架,在语音波形恢复步骤中使用了时域波形信息和空间信息。并在此框架的基础上提出了两种语音时空特征编码器,该方法对比最新的多通道语音分离方法性能有显著提升。

其他文献

基于深度对抗式学习的三维人体姿态估计

三维人体姿态估计是对图像或者视频中出现的人体进行准确的关节点定位,抽象出一个三维人体骨骼形状,以便后续的动作分析和行为识别。它是很多高级计算机视觉任务的基础,能够广泛的应用于视频监控、步态分析、动作捕捉以及体感人机交互领域。随着深度神经网络模型的飞速发展,三维人体姿态估计方法也在日益革新。基于深度学习的两阶段三维人体姿态估计方法首先将图像传入预训练的二维姿态提取网络获取二维人体关节点坐标,然后再通

学位

三维人体姿态估计生成对抗网络深度学习计算机视觉

基于深度生成对抗模型的自然图像增强

随着数字化时代的快速发展,图像和视频成为获取信息的主要形式之一,由于硬件成本以及环境的限制,捕捉到的图像会呈现出低光照、背光不足、局部区域模糊等特征,既影响了信息获取的准确度,也会影响实际任务如目标检测和人像识别等等任务中对高质量图像的需求。往往需要手动调节低质量图像的亮度、对比度、饱和度以及图像的局部区域的质量,从而使得图像可以传递更丰富的信息,但是这样的过程往往比较耗时。因此,对自然图像自适应

学位

生成对抗网络深度伽马变换注意力机制局部鉴别器

基于人体关键点检测的体育运动视频分析系统

近年来,世界各国均将竞技体育成绩视为评估国家综合实力的重要指标。面对国际竞技体育竞争日益激烈的现状,必须依靠更为科学高效的训练方法提升我国竞技体育水平。目前,利用运动感知器采集运动数据易受环境干扰,且通过人工分析运动员动作准确度不高。针对以上问题,本文应用深度学习技术突破当前依靠传感器采集运动员运动数据的局限性,设计并实现了基于人体关键点检测智能模型的体育运动视频分析系统。本系统旨在对视频中运动员

学位

体育运动视频分析人体关键点检测OpenPoseSpringBoot

导引头伺服控制系统的电路研究与开发

本课题来源于某型导引头伺服控制系统的开发项目。论文主要完成了导引头伺服控制系统方案和硬件电路设计、FPGA接口开发以及系统调试与测试,同时对信号完整性问题中的反射与串扰现象进行了分析和仿真,提出了应对策略并应用于系统电路设计中。首先,根据导引头伺服控制系统的功能和指标要求进行了总体方案设计,提出了硬件电路设计方案,完成了载荷估算、关键部件和芯片选型、电路总体设计以及功耗核算,在此基础上通过对四个控

学位

导引头伺服控制系统信号完整性电路设计PCBFPGA

索驱动下肢康复机器人误差建模及其补偿研究

索驱动机器人是利用柔索代替刚性连杆的一类并联机器人,具备结构简单、大工作空间、易重构等优点。但索作为柔性件,导致索驱动机器人在运动过程中易产生运动误差,因此对索驱动机器人进行误差分析和补偿是必不可少的。本文针对索驱动下肢康复机器人做了以下研究。本文的索驱动机器人是一种使用四根索牵引人体下肢进行步态训练的康复机器人,也称索驱动下肢康复机器人。为了提高机器人的运动精度,先建立其全参数几何误差模型以及误

学位

索驱动下肢康复机器人差分进化误差建模灵敏度误差补偿

单粒子效应系统级故障注入仿真方法研究

在航天领域中,星载计算机系统作为航空航天器中核心的控制部件,发挥着越来越重要的作用。由于其长期运行于太空高能粒子辐射环境中,容易受到高能粒子轰击而发生单粒子效应,致使系统运行产生故障。因此如何有效地评估单粒子效应对计算机系统的影响越来越受到研究人员的广泛关注。在实际情况中,单粒子模拟实验作为评估单粒子效应的有效手段,可以精准地模拟出处理器系统在实际太空辐射环境中运行中受到单粒子效应影响的情况,但是

学位

星载计算机单粒子效应故障注入方法仿真平台

面向政务图像数据的隐私保护方法研究与实现

政务大数据的开放共享是促进大数据在政务领域应用发展的关键,其打破业务壁垒和“数据孤岛”现象,实现信息的跨部门、跨层级共享,但在共享过程中导致数据信息面临隐私泄露的风险。传统的隐私保护技术无法满足开放共享平台的多用途共享需求;也无法做到在保护数据隐私的同时保证多部门合作训练的性能。众所周知,政务大数据的存储形式各式各样,如文本,图像和视频等,不同类型数据的数据特点不同,在实现隐私保护时的方法也是各不

学位

差分隐私多任务学习联邦学习隐私保护政务图像数据

星用图像处理SoC的架构设计与集成实现

随着数字图像处理技术的发展,其被广泛应用于卫星遥感和航空航天等领域。相比于常规图像处理系统采用GPU+CPU的方案,星用图像处理对体积、功耗、实时性和可靠性等方面提出更高要求,使得空间环境中图像处理系统设计任务复杂,如何设计高可靠性和高实时性的星用图像处理系统以应对复杂空间环境成为设计难点,进行高性能星用图像处理SoC研究具有重要的意义与价值。本文面向星上图像处理需求设计一款图像压缩和云检测的图像

学位

图像处理SoC多层总线结构抗辐照功能验证

通信网络中基于主动探测的多故障定位算法研究

计算机技术与通信技术的结合使得通信网络在数据传输、信息交换和资源共享等方面具有的优势越来越突出。伴随着持续高速的网络发展,故障管理已成为了保证网络可靠性的重要手段。在通信网络中,设备或者通信链路的故障会降低网络的服务质量（Quality of Service,Qo S）。当故障发生时,如果不及时地进行故障识别和恢复,故障带来的负面影响可能需要高昂的经济成本来弥补。作为网络故障恢复的基础,故障定位的

学位

通信网络多故障定位主动探测技术探测站放置探测路径选择

基于态势感知的流量调度方法

随着网络时代的发展,越来越多的网络设备进入了人们生产经营活动的各个领域,多种智能设备的应用也对网络管理及网络结构提出了更加复杂和严苛的要求。基于传统网络管理的单元融合机制无法适应现在高并发、高传输速度的新型智慧化网络的要求。因此如何使得网络流量感知和调度更加智能、全网流量传输速度最大化以及网络更加稳定是当前阶段建设智慧网络的几个重要目标需求。本文基于网络态势感知和网络流量调度这两大影响网络质量的核

学位

态势感知流量调度负载均衡

基于深度学习的多说话人语音分离

与本文相关的学术论文