论文部分内容阅读
语音信号是生活中最为常用的沟通信号,其中包含大量语言和情感信息。随着技术发展,其被广泛应用于智能控制、生物医疗和电子金融等多种领域,语音信号分离技术是语音识别和语音增强等技术的基础,如何在复杂环境下,对观测信号中特定语音进行准确分离具有重要研究价值。针对语音分离技术主要有两种思路,一种是基于信号处理的非深度学习方式,亦可以称其为传统算法,另一种是基于深度学习进行分离操作。
本文针对传统算法中适定盲源分离问题提出了一种GA_FastICA算法,通过GA算法将观测信号进行第一个阶段降噪处理,而后结合FastICA算法完成语音信号分离操作。实验结果表明在较低信噪比条件下,或者在不同种类噪声影响下,本文提出算法较原始算法分离效果更好。针对传统算法中单通道盲源分离问题,本文提出了一种基于NMF的超平面分解方法,将原始混合矩阵通过基矩阵和系数矩阵表示。混合矩阵中每一列都可以通过基矩阵和系数矩阵计算得到,将其映射到几何层面,就是将样本集在其基向量子空间之上进行投影操作。实验中做出了8个和16个超平面分离效果,并探究了重构效果和超平面个数间的关系,为单通道语音分离算法提供了一种新思路。
针对深度学习语音分离算法,本文提出了一种LSTM网络模型,结合IBM对输入语音信号进行训练,解决了RNN网络梯度下降问题,完成了歌声信号和背景音乐信号分离。为解决人声分离问题,本文结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,利用超指向波束形成算法得到三个不同方向上的波束,提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,进而实现语音分离。该算法充分利用了语音信号空间特征和信号频域特征,利用PESQ、STOI和SDR等指标对分离结果进行评价,结果表明本文提出算法较LSTM算法各项指标均有所提高,说话人分离效果更好。
本文针对传统算法中适定盲源分离问题提出了一种GA_FastICA算法,通过GA算法将观测信号进行第一个阶段降噪处理,而后结合FastICA算法完成语音信号分离操作。实验结果表明在较低信噪比条件下,或者在不同种类噪声影响下,本文提出算法较原始算法分离效果更好。针对传统算法中单通道盲源分离问题,本文提出了一种基于NMF的超平面分解方法,将原始混合矩阵通过基矩阵和系数矩阵表示。混合矩阵中每一列都可以通过基矩阵和系数矩阵计算得到,将其映射到几何层面,就是将样本集在其基向量子空间之上进行投影操作。实验中做出了8个和16个超平面分离效果,并探究了重构效果和超平面个数间的关系,为单通道语音分离算法提供了一种新思路。
针对深度学习语音分离算法,本文提出了一种LSTM网络模型,结合IBM对输入语音信号进行训练,解决了RNN网络梯度下降问题,完成了歌声信号和背景音乐信号分离。为解决人声分离问题,本文结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,利用超指向波束形成算法得到三个不同方向上的波束,提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,进而实现语音分离。该算法充分利用了语音信号空间特征和信号频域特征,利用PESQ、STOI和SDR等指标对分离结果进行评价,结果表明本文提出算法较LSTM算法各项指标均有所提高,说话人分离效果更好。