基于多目标学习和集成的语音增强技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:magi9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是从带噪语音中恢复出干净语音分量,以提高语音的听感质量和可懂度。传统的语音增强算法假设噪声是平稳的,但是生活中的实际噪声是随机且非平稳的。而现代的神经网络语音增强算法无需假设噪声性质,可以直接学习带噪语音到干净语音的映射关系。但是不同的训练目标会有不同的语音增强效果,而且单个神经网络的学习能力也是有限的,因此多目标学习和集成学习算法开始应用在语音增强领域。多目标学习语音增强算法可以同时优化多个训练目标且不增加太多额外的参数,但是存在共享层参数训练冲突问题。集成学习语音增强算法可以将多个神经网络并行集成提高模型表达能力,但是目前大多数基于集成学习的语音增强算法存在基模型同质化问题,而且门控单元的输入通常和基模型的帧扩展输入相同,帧扩展输入过于冗余,不利于学习融合决策。本文围绕多目标学习语音增强算法和集成学习语音增强算法存在的问题,进行改进:1、针对多目标学习语音增强算法存在的参数训练冲突问题,提出了一种改进的多目标学习语音增强方法,并将其应用在多目标神经网络、多目标门控循环单元网络和多目标卷积神经网络。在结构上,折中考虑多目标学习的参数共享机制和参数训练冲突问题,不在最后一层引出多个网络层来匹配多个训练目标,而是在中间网络层开始匹配多目标的分支。同时为了让各个训练目标能充分学习到原始输入信息,采用特征拼接或跳跃连接的方式将原始输入信息连接到各个训练目标对应的输出层。实验结果表明,改进的多目标神经网络,改进的多目标门控循环单元网络,改进的多目标卷积神经网络和它们各自的单目标网络相比,PESQ分别提升了6.9%,6.12%,3.12%,和它们各自的传统多目标网络相比,PESQ分别提升了2.1%,1.35%,1.25%。2、针对集成学习语音增强算法存在的同质化和门控单元输入冗余问题,提出了基于多目标学习和集成的语音增强算法。将改进的多目标神经网络、多目标门控循环单元网络和多目标卷积神经网络作为集成模型的基模型并行集成,以提升基模型的异质性。针对门控单元输入冗余问题,只用当前一帧输入,为了补偿帧关联信息的丢失,计算当前帧和之前帧的能量统计特征,并将这些特征拼接到当前一帧输入的后面。实验结果表明,基于多目标学习和集成的语音增强算法模型比M-DNN[38]模型的PESQ提升了9.79%。
其他文献
水下视频图像往往存在模糊、对比度低、颜色失真、光照不均匀以及可视范围有限等问题,严重影响了对水底目标的观测,因此需要运用图像增强与拼接技术,以获得清晰的宽视野的水下图像。本文从实际应用出发,通过对近海浅水区域水下视频关键帧提取、水下图像增强以及水下图像拼接进行了工程设计性的研究,实现了宽视野高质量水底全景图像的获取,对实际应用具有一定参考价值。本文主要工作与创新点如下:(1)在关键帧提取方面,本文
辣椒素是从辣椒中提取的一种生物碱,可以与我们体内的感觉神经元香草素受体1(TRPV1)结合而使人体产生痛觉,其化学名是反式-8-甲基-N-香草基-6-壬烯酰胺,化学式为C18H27NO3,具有多种生理学作用,例如抗炎、抗肿瘤、抑菌等效果。NLRP3炎症小体在机体炎症反应中起着重要的作用。虽然之前有报道发现,辣椒素具有抑制机体炎症的效果,但是目前辣椒素在小鼠巨噬细胞NLRP3炎症小体活化过程中的作用
聚合物发光二极管(Polymer Light-Emitting Diode,PLED)具有可溶液加工、成本低且能大面积制备等优点,能很好地应用在大面积柔性显示设备和固态照明设备中,因此PLED具有很大的商用潜力。目前PLED所采用的红、绿、蓝三基色发光聚合物中的蓝光发光聚合物常见为聚芴衍生物,但是大多数蓝光聚芴材料的电致发光效率均小于3cd A-1,且电致发光光谱也不是很稳定,使用寿命短,故PLE
目的:心室压力增高是心肌纤维化的重要致病因素。压力感受器Piezo1能将机械应力转变成细胞内的Ca2+信号,且Ca2+调控异常与心肌纤维化密切相关,但Piezo1是否介导了高静水压诱导心肌纤维化还有待进一步探究。此外,DNA去甲基化也在心肌纤维化的发病中扮演重要角色,其中DNA去甲基化酶(TET)是调控DNA去甲基化的重要因子,但TET与心肌纤维化的关系还有待进一步阐明。因此本研究拟探讨:Piez
智慧城市的概念自2008年被IBM提出,近二十年以来一直备受各界关注。智慧社区是智慧城市最重要的组成部分,也是与民生最息息相关的技术应用。截至2018年我国已经陆续开展约500个智慧城市试点项目,智慧社区将是一个研究热点。本文紧密结合当前智慧社区的发展形势及应用现状,针对当前智慧社区存在的忽视居民需求、缺乏效益量化评价的现状开展相关研究。本文首先在对智慧城市及智慧社区等相关理论学习和国内外大量文献
随着社会不断发展,不可再生能源紧缺、环境污染等问题日益严重,移动电子设备、新能源汽车的蓬勃兴起,发展绿色环保、可持续的锂离子电池是未来的必然趋势。而当前商业市场上使用液态电解液的锂离子电池能量密度有限和存在安全隐患等问题限制了其进一步发展,为了解决能量密度和安全性问题,发展使用固态电解质的全固态锂金属电池是未来的必经之路。固态聚合物电解质是目前研究最成熟的一类固态电解质,具有易成型、与电极相容性好
Ⅲ族氮化物紫外发光二极管(Ultraviolet Light-Emitting Diode,UV LED)在杀菌消毒、医疗、气体传感和聚合物固化等领域具有广阔的应用前景。目前,相比于In Ga N基可见光LED,Al Ga N基UV LED的外量子效率(External Quantum Efficiency,EQE)很低,阻碍了其商业化应用的进程。高Al组分的Al Ga N基UV LED,面临着强
动力电池作为电动汽车的核心部件,其性能直接影响着电动汽车的可靠性和安全性。温度对电池性能及寿命有着较大影响,过高或过低温度都会导致电池性能衰减甚至破坏失效,因此有必要设计开发安全高效的动力电池热管理系统。针对小型与大型动力电池模组存在的热管理问题,本文分别提出了基于超薄均热板和基于三维热管阵列的动力电池集成式热管理技术,并研究分析其与不同散热方式结合的热管理效果。本文首先设计并制造了厚度为0.8
随着大众的信息安全意识不断增强,人们对身份识别方法的便捷、准确和安全性要求越来越高。掌纹和掌静脉相比指纹、指静脉等生物特征,具有特征区域大、纹理信息丰富等特点,在身份识别任务中有着优秀的性能,因此,近年来掌纹掌静脉识别技术引发了学术界和工业界的广泛关注和研究。目前掌纹掌静脉识别在实际应用中仍然存在用户体验差、训练数据缺乏、静脉成像受手掌温度影响较大等问题。由于现有的系统要求用户手掌在特定区域停留一
癌症是威胁人类健康的一个重要因素,具有生理复杂性和异质性。随着高通量测序技术发展,利用多组学数据进行癌症分型研究是一个重要的研究方向。尽管有了一些利用统计学和深度学习来整合多组学数据的研究,但是受限于多组学数据之间高度不平衡的维度和尺度差异,以及生物数据的高噪声,目前仍缺乏更有效率的整合方法。针对上述问题,本文提出了三种多组学整合分型方法,渐进式地开展多组学整合分型研究。首先提出了深度网络多组学整