基于传统方式和深度学习方式的语音分离算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:dfvg454545g
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号是生活中最为常用的沟通信号,其中包含大量语言和情感信息。随着技术发展,其被广泛应用于智能控制、生物医疗和电子金融等多种领域,语音信号分离技术是语音识别和语音增强等技术的基础,如何在复杂环境下,对观测信号中特定语音进行准确分离具有重要研究价值。针对语音分离技术主要有两种思路,一种是基于信号处理的非深度学习方式,亦可以称其为传统算法,另一种是基于深度学习进行分离操作。
  本文针对传统算法中适定盲源分离问题提出了一种GA_FastICA算法,通过GA算法将观测信号进行第一个阶段降噪处理,而后结合FastICA算法完成语音信号分离操作。实验结果表明在较低信噪比条件下,或者在不同种类噪声影响下,本文提出算法较原始算法分离效果更好。针对传统算法中单通道盲源分离问题,本文提出了一种基于NMF的超平面分解方法,将原始混合矩阵通过基矩阵和系数矩阵表示。混合矩阵中每一列都可以通过基矩阵和系数矩阵计算得到,将其映射到几何层面,就是将样本集在其基向量子空间之上进行投影操作。实验中做出了8个和16个超平面分离效果,并探究了重构效果和超平面个数间的关系,为单通道语音分离算法提供了一种新思路。
  针对深度学习语音分离算法,本文提出了一种LSTM网络模型,结合IBM对输入语音信号进行训练,解决了RNN网络梯度下降问题,完成了歌声信号和背景音乐信号分离。为解决人声分离问题,本文结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,利用超指向波束形成算法得到三个不同方向上的波束,提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,进而实现语音分离。该算法充分利用了语音信号空间特征和信号频域特征,利用PESQ、STOI和SDR等指标对分离结果进行评价,结果表明本文提出算法较LSTM算法各项指标均有所提高,说话人分离效果更好。
其他文献
反射面天线以其结构简单且稳定、功率容量大、性能优良等众多优点,成为卫星通信使用最多的天线种类之一。从最初简单的正馈单反射面天线,逐渐发展为多反射面天线、偏置反射面天线和赋形反射面天线等,宽带化、小型化和一体化是反射面天线一直以来最主要的发展趋势。反射面天线的整体性能很大程度上取决于其关键组成部分——馈源的性能。本文将反射面天线的馈源系统作为研究对象,主要工作包括以下几个部分:  1、反射面天线的发
单脉冲天线在工作时通过一个回波脉冲可以获得目标的位置信息,它的性能在一定程度上决定着雷达系统的追踪精度。近年来随着单脉冲天线在通信领域的发展,在一些场景下除了定位的准确性,还需要满足高速的信息传输速率,提高抗干扰性能,并降低其剖面高度。  本文设计了两款宽带低剖面单脉冲阵列天线,一个是等功分单脉冲阵列天线,另一个是在E面和H面均采用切比雪夫综合法所设计的低副瓣单脉冲阵列天线,并将人工磁导体应用于阵
激光脉冲整形技术是高功率、高重复率、可调谐TEA CO激光器研究和利用TEA CO激光研制差分吸收雷达、高次谐波发生获得3~5um中红外激光研究中必不可少的重要技术.等离子体开关是目前应用较广的一种简单可行的激光脉冲整形技术.通常情况下,TEA CO激光的脉冲输出波形是由增益开关动作产生的主脉冲以及接续它的很长的拖尾组成,这段占脉冲大部分能量的拖尾,不仅导致差分吸收雷达的距离分辨率降低,而且在倍频
学位
该文回顾了国内外S激光器发展历史,分析和总结了前人的研究结果.在此基础上,开展了小型化放电型S激光器的研究.首先从理论上进行了宏观量的计算.讨论了实现粒子数反转的条件.详细讨论了Blumlein脉冲放电电路在研究人员研制的放电型S激光器中的应用.分别使用HY-3202氢闸流管和多通道火花隙,充气火花隙作为电路的触发快速转换开关,研究了它们的导通特性.通过比较,充气火花隙性能最稳定,开关速度最快,以
以la掺杂Pb(Zr,Sn,Ti)O反铁电相变陶瓷为研究对象,从结构、性能与应用的角度出发,深入系统地研究了铁电-相界附近,组份、温度、电场、压力变化对相结构和相变 性能的影响,揭示了场诱相变临界参数变化规律及相互关系.将温度诱导的Fe-AFE相变与电场诱导的AFE-FE相变和压力诱导的FE-AFE相变联系起来,详细研究了它们之间的内在机制.对场诱相变所产生的各种宏观效应-电致应就、压致相变电茶释
在这个科学技术不断发展和进步的时代,人们已经不满足于现有的通信速率和通信质量。满足上述要求的多输入多输出(multiple-input multiple-output,MIMO)技术得到了快速发展,其通过在收发端分别配置多根天线来对信息进行发送和接收,使得整个通信系统的传输速率大大增加。但在MIMO系统中,多天线收发会使系统性能受信道间干扰(inter-channel interference,I
学位
滚动轴承是旋转机械设备中关键零部件之一,在不同工业领域中应用广泛。但在实际工作中轴承工况不断变化导致大量有标签数据获取困难,同时传统寿命预测方法存在健康指标难以构建及寿命预测误差大的不足。因此,能够准确预测滚动轴承的剩余使用寿命对工业生产具有重大意义。本文针对不同工况滚动轴承剩余使用寿命预测提出一种方法,该方法分为状态识别与寿命预测两部分。状态识别方面:提出基于深度模型迁移的滚动轴承状态识别方法。
学位
图像是人们从客观世界获取信息的重要来源。然而,受环境以及成像设备的影响,获取的图像经常存在遮挡、扭曲、光照不均、边缘模糊等问题,导致图像中有效信息不能充分利用。这些低质量图像会给后续图像的处理,譬如图像中文本的定位与识别,带来很大的困难。目前基于深度学习算法的文本定位与识别算法在处理高质量图像时较传统的文档文本定位与识别技术有显著优势,但是在处理低质量的图像时,定位与识别效果仍然不理想。本文针对提
学位
核磁共振成像(Magnetic Resonance Imaging,MRI)过程中,由于受自身成像机制的影响,以及遵循奈奎斯特采样定理将耗费大量的采集时间,长时间的扫描操作容易引起患者感到不适,并且可能会引入运动伪影。近年来,基于生成对抗网络的压缩感知(Compressed sensing,CS)核磁共振重建算法在重建时间上有了较大的提升,但是由于原始的生成对抗网络存在训练稳定性差、困难和模式崩溃
随着信息技术与人工智能的发展,人们在日常生活中接触到的图片越来越多。图片中包含了大量的信息,因此通过文本检测与识别提取图片中的信息变得尤为重要。伴随着计算机视觉技术的快速发展,提高了人们对自然场景文本信息的检测与识别的要求。自然场景文本检测是从背景复杂的图片中得到文字的位置信息。通过检测与识别自然场景中的文本可以应用于工业自动化、车牌识别、智能机器人、智能翻译等领域。准确快速地检测场景文本成为科研
学位