【摘 要】
:
语音信息是人类交流中最重要的一种形式,但是在实际生活中语音信息会受背景声音的干扰而影响语音信息的准确性,进而影响人们的交流。语音信息作为人类交流的最重要手段,因此
论文部分内容阅读
语音信息是人类交流中最重要的一种形式,但是在实际生活中语音信息会受背景声音的干扰而影响语音信息的准确性,进而影响人们的交流。语音信息作为人类交流的最重要手段,因此将目标语音与背景声音分开的能力是至关重要的。语音分离一直以来是语音处理的重要研究方向,为了提高目标语音分离的质量,近几十年来研究者提出了多种语音分离方法,早期的方法在挖掘非线性结构信息的能力上非常有限,因此单声道语音分离的性能一直差强人意。近年来随着深度神经网络的发展,利用深度神经网络的多层的非线性处理结构来挖掘数据中的结构信息,自动提取抽象化特征表示,在多个研究领域取得了较好的效果,因此将深度神经网络逐渐运用到语音分离任务中具有非常高的研究意义。本文的主要研究内容如下:本文使用循环神经网络来构建语音分离模型,由于循环神经网络具有较强的学习能力,对于处理语音问题具有一定的优势,通过仿真实验得出该方法相对于典型的传统语音分离方法(鲁棒性低秩非负矩阵分解法、多重低阶表示法)具有较强的语音分离能力,在全局信失比和全局信干比上性能均有提高。本文提出了基于卷积神经网络和注意力机制的语音分离模型,使用混合语音信号的幅度谱作为输入,其具有高维性,通过分析卷积神经网络和注意力机制的特点,卷积神经网络可以有效地提取低维特征,挖掘语音信号中的时空结构信息,注意力机制可以减少序列信息的丢失,通过联合两种机制有效地提高语音分离的准确性。最后进行仿真实验,采用代表性的数据集MIR-1K验证了本文提出的语音分离方法的性能。通过与典型的语音分离模型DRNN-2+discrim进行对比,该方法实现了0.27d B GNSDR增益和0.51d B GSIR增益,显示出本文提出的语音分离方法取得了理想的实验效果。
其他文献
行为检测旨在通过智能算法自动地定位视频中感兴趣行为,并判断行为的类别。行为检测是计算机视觉研究领域一项极其重要且困难的研究任务,其研究成果可被广泛应用于智能监控系
随着新媒体信息爆炸式增长,如何有效地检索识别出敏感内容,满足执法机构保障互联网舆情的需求,是科研工作者的重要课题。经过对敏感数据的分析研究,逐渐形成了以深度学习视图
步行道上违法占道停车现象存在交通安全隐患,是城市管理中的一大难点。传统基于定点监控设备的违停检测方法不适用于步行道场景,执法人员人工巡检则存在效率低下的问题。针对
随着时间的增长,自然灾害的侵蚀及人为的破坏,混凝土道路将会出现严重的病害进而影响到出行安全。裂缝是混凝土公路病害的早期表现形式,智能裂缝检测方法可以避免人工检测带
现代社会脑血管疾病和青光眼是当今世界危害人类生命健康的重要疾病,对脑血管成像技术和前房角成像的研究至关重要。文中介绍了各种传统脑血管成像的方法和人眼成像方法,都有接触式或者无法深度成像或者分辨率不高的缺点,而光学相干层析成像技术(Optical coherence tomography,OCT)具有非接触、分辨率高、采集速度快,能够深度分辨等优势,不仅能够显示样品三维结构,而且能够检测样品中的运动
随着我国对外交流不断发展,对译员的需求量也不断变大。交替传译作为一种主要的口译形式,应用非常广泛,在国际会议,发布会等场合都扮演着十分重要的角色。本次模拟实践报告是
近些年,显示行业的高速发展使得薄膜晶体管技术引起了众多研究者的注意。而氧化物薄膜晶体管由于其优良的电学性能及光学性能而被广泛应用于高分辨率有源矩阵液晶显示、大面
随着经济发展,生活水平的提高,我国的机动车保有量日益增多。庞大的汽车数量在便利我们生活的同时,也引发了诸如交通事故、道路拥堵、温室效应等问题。随着智能交通、驾驶辅
人工免疫系统是人工智能技术的重要分支之一,其作为一种受到生物免疫系统的启发,并模仿其免疫功能的一种智能方法被广泛应用于异常检测、数据挖掘、机器学习等多个领域。异常
虚拟现实室内场景应用的需求日益增长,人们对场景真实感不足、画面流畅度有限、使用易疲劳等影响用户体验的问题要求越来越苛刻。在虚拟现实所使用的绘制技术中,传统的PBR技