基于深度学习的语音分离算法的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:bestext
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能和移动通信等领域的飞速发展,语音分离技术作为是信号处理中的一项基础性工作越来越受到研究人员的重视。因为在“鸡尾酒会”这样的音响环境中,人耳似乎能够毫不费力地从包含其他说话者和背景噪音的混合语音中分辨出目标说话人的语音。但是,这对计算机而言却是非常困难的。由于深度学习的发展日趋成熟,基于深度学习的单通道语音分离技术层出不穷,大大提高了分离语音的质量。本文为研究单通道多说话者语音分离问题,围绕深度聚类(DPCL)算法展开工作。DPCL算法是基于深度学习的单通道多说话者语音分离算法的先驱之作,此后大量的研究在其基础上进行,可谓奠基石。本文从DPCL算法中的网络结构和聚类算法着手,对其进行优化。本文首先利用门控循环单元(GRU)构建应用于DPCL算法的深度神经网络。GRU已经被证实在复调音乐建模与语音信号建模的领域能够取得与长短时记忆(LSTM)网络相近甚至更好的效果,且GRU能够大大节约计算成本,却很少应用在语音分离场景中。本文在尝试了多种双向门控循环单元(BGRU)为主体的网络结构后得出初步结论:GRU应用在DPCL算法中时的语音分离性能不及LSTM。然后本文针对DPCL算法网络结构复杂,训练时间过长和应用的聚类算法单一的问题,试图利用双向长短时记忆(BLSTM)网络与双向门控循环单元(BGRU)构建DPCL算法的网络结构,并结合多种聚类算法,以此降低DPCL算法的网络复杂度,提高其语音分离性能。最终本文提出一种基于高斯混合(GMM)聚类和新型网络结构的DPCL优化算法。与依靠增加DPCL算法复杂度来提高其语音分离性能的算法不同,所提出的DPCL优化算法的网络结构与原网络结构相比精简了近三分之一的参数。新型网络结构是由BLSTM与BGRU组合的循环神经网络作为主体结构。优化算法大大缩短神经网络训练时长,并且以信号失真比(SDR)为衡量标准,将同性别双人混合语音分离效果提升至9.5dB,不同性别双人混合语音分离效果提升至11.8dB,整体上分离效果提升到10.65dB。
其他文献
现今电子封装发展趋向于高集成、高功耗、低封装尺寸,需要焊料可焊性、可靠性更高。具有高可焊性、高可靠性的纳米复合焊料研发成为近年来电子封装锡焊料研发热门之一。由于纳米复合焊料应用尚处于起步阶段,对于复合焊料的制备、储藏、焊接、服役、回收等问题研究较少。本文从复合焊膏的制备入手,主要研究纳米相逸出、气泡形成及长大、焊点凝固形核、焊料热学性能以及润湿性能,从而研究复合焊料的可焊性、可靠性。本文通过混合搅
烟叶等级质量关乎着卷烟的香气质,针对目前烟叶收购站均在单一白色光源和光照强度的环境下对烟叶进行分级,本文对不同波段光源不同光照强度下采集的烟叶展开分级研究,以期选择出最适合烟叶分级的波段光源和光照强度。主要工作如下:(1)研究了烟叶图像采集设备。该设备可以采集白色、红色、蓝色和绿色4种波段光源下的烟叶,通过调节光强控制器控制每个光源的光照强度强弱,整个采集过程是在密闭不透光的环境下进行的,尽可能保
随着人工智能技术的不断发展,越来越多的智能技术应用在人们生活的各个方面。如何智能识别人的情绪变化,是一个很具有挑战难度的技术。因为人的情绪表现方式多种多样,而且人脸表情、说话声音、不同语言等表现方式中体现情绪变化的特征也变化多端。目前单一的通过一种模态数据来识别人的情绪算法层出不穷,算法应用也体现在各个方面。但是,单一模式的情绪识别并不符合人们情绪表达方式,且容易受到其他不可避免的外界因素影响,情
公路交通作为人们生产生活中必不可少的公共基础设施,其公益性,服务性,覆盖性是最强的。近几年,福建省公路建设也进入如火如荼的阶段,项目资金需求巨大。目前公路建设的资金
随着三网融合的不断完善和5G商用的推广,年轻人对电视等PC终端已逐渐失去兴趣,广电行业的优势愈加微弱,移动、联通、电信三大运营商巨头和腾讯、爱奇艺等互联网企业几乎涉足广电行业的各个业务。为增强竞争力,包括山东在内的各地成立广电网络公司,随即山东逐步将全省各地区广播电视局的数字电视业务剥离出来成立广电网络分公司,逐渐进入市场竞争,但各地分公司却始终难以杀出重围,公司生存和竞争雪上加霜。基于此,本文将
近年来,负载型单原子/团簇催化剂具有高活性、高选择性和高稳定性等特点,在加氢、氧化等催化反应中具有潜在的应用价值,成为多相催化领域新的研究热点。本论文旨在探索单原子/团簇催化剂的新颖合成方法及在选择性加氢催化中的机理研究。我们采用了两种高效、简易的单原子催化剂合成方法,分别通过原子尺度限域策略及光化学辅助合成策略在SAPO-31上负载单分散钯金属原子及钯金属纳米团簇,通过先进表征手段对催化剂的物化
随着云计算和人工智能等新兴技术的蓬勃发展,数据中心正面临着业务多样化、规模扩增化与流量复杂化的挑战。数据中心内的网络流量爆炸式增长,大象流占据了数据中心网络的宝贵带宽,老鼠流极易被大象流挤占带宽资源,导致传输时延加大,甚至影响业务性能。因此,为了有效提高带宽利用率、降低传输时延、改善应用性能,需要针对大象流和老鼠流进行实时准确的识别分类,以便后续能及时地调控其传输。然而,网络流属性间关系复杂,数据
往复式压缩机是石化企业重要的动力设备,其稳定性与可靠性直接影响企业的安全生产与经济效益。对往复式压缩机进行状态监测,可以及时发现故障隐患,制定合理维修计划,节约大量
随着智能手机的出现及迅速普及,出现了许多基于用户地理位置进行服务的应用,这些服务大多要求得到用户的位置信息。对于用户来说,地理位置属于重要的隐私信息,因此出现了许多
新创企业是下一阶段我国经济增长、促进就业的动力源泉。国务院自2015年提出要全面促进开展“大众创业、万众创新”工作以来,多项扶持创新创业活动的政策性计划举措得到逐步的落实,在战略引导、政策推动、积极落实的激励下,国民的创业热情不断高涨,创业者积极的寻找创业机会,探索多元化创新,但新创企业增势凶猛却存在着失败率高、绩效波动大、发展方向不明确等问题,“创业难成功难”成为了社会普遍共识。相比于成熟的企业