论文部分内容阅读
传统数字信号处理(Digital Signal Processing,DSP)技术主要处理低维度信号,并使用矢量法来表示其数据集合。但是该矢量法缺乏对一些高维度信号及其隐含拓扑结构的综合考虑,即通过矢量法表示数据时未体现数据间关系(如采集的位置、相互的关联度、数据的分布特性等)。为解决上述问题及高效分析、处理高维度信号及其属性,图信号处理(Graph Signal Processing,GSP)技术应运而生。不同于传统DSP技术,GSP技术通过构建信号的图拓扑结构和图边权矩阵来实现其有用信息的提取。值得一提的是,本团队前期已证明:经典离散傅里叶变换(Discrete Fourier Transform,DFT)是GSP里基于有向周期图信号的图边权矩阵所定义的图傅里叶变换(Graph Fourier Transform,GFT)的一种特例。因此可以说GSP是DSP的拓展,开辟了新的数字信号处理途径。鉴于语音信号本质上隶属于规则域的一种非平稳、非线性的信号,且本身没有形成固定的图拓扑结构。本文从语音的数据属性出发,利用GSP里图信号频率的定义取决于图拓扑结构的图邻接矩阵以及不同图拓扑结构形成不同的图频域的这一优势,我们根据不同处理任务和目的为语音信号设计不同的图拓扑结构,将语音信号映射到不同的图频域,形成不同的有用特征,奠定了初步理论基础。进而本文着重研究单通道语音基于GSP技术的图拓扑结构的构建和图信号增强算法。其主要创新工作归纳如下:1.针对语音信号从时域到图域的映射与反映射的问题,本文利用图移运算为语音信号设计了一种单层有向图拓扑结构,实现了语音信号从时域到图域的映射,初步得到语音信号的一种图信号表示,实现语音相邻/非相邻样点之间关联性的具体描述。根据GSP里GFT定义,我们提出对该单层有向图拓扑结构的图邻接矩阵进行矩阵奇异值分解(Singular Value Decomposition,SVD),然后利用该特征向量为含噪语音信号定义一种图傅里叶基。通过此图傅里叶基将含噪语音信号映射至该单层有向图频域内,进而可以研究语音信号和噪声信号在该图频率域的图频特性。根据语音信号和噪声信号的图谱统计特性,本文提出了一种基于最小均方误差准则的有向图维纳滤波语音增强方法来抑制噪声干扰。仿真实验表明在SNR和PESQ评价标准上,所提出的有向图维纳滤波方法均优于基准算法。2.针对周期有限时序信号的广义图拓扑结构和基于语音图移算子的单层有向图拓扑结构未捕捉语音帧彼此之间的潜在关系问题,本文利用图学习方法和语音图移算子为语音信号构建一种时间-顶点联合有向图拓扑结构,同步捕捉语音帧彼此之间的潜在关系和帧内语音样点之间的潜在关系。然后根据GSP里联合傅里叶变换定义,我们对时间-顶点联合有向图拓扑结构所对应的联合图邻接矩阵进行矩阵奇异值分解,利用其特征向量为含噪语音信号定义一种联合图傅里叶基。继而在该时间-顶点联合图频域,本文提出了一种基于时间-顶点联合有向图维纳滤波算法来增强含噪语音信号。仿真实验表明在SNR和PESQ评价标准上,所提出的基于时间-顶点联合有向图维纳滤波算法均优于基准算法。3.针对研究1和2中所设计的单层有向图拓扑结构和时间-顶点联合有向图拓扑结构均为有向图模型,无法保证基于两者的图邻接矩阵可以获得正交的图傅里叶基。以及在低信噪比情况下,单层有向图维纳语音增强算法和时间-顶点联合有向图维纳滤波算法的降噪性均不尽人意,本文利用K-图学习方法和语音图移算子为语音信号设计了一组子无向图拓扑结构,实时捕捉噪声帧/含噪语音帧彼此之间的潜在关系。然后利用该无向图拓扑结构的联合图拉普拉斯矩阵为语音信号定义了一种无向图傅里叶基,将语音信号和噪声成功映射至该无向图频域。根据该无向图频域内语音信号和噪声信号的图频谱的估计,本文提出一种GMMSE图谱估计算法语音增强算法。仿真实验表明在SNR、PESQ、LLR和STOI评价标准上,所提出GMMSE图谱估计语音增强方法均优于GSP里图维纳滤波算法和DSP里经典语音增强算法。4.针对经典语音增强算法通常不考虑语音信号经过短时傅里叶变换(Short-Time Fourier Transform,STFT)变换后的相位谱对降噪效果影响,而最新研究表明,某些场景下相位对语音质量具有重要影响,借鉴目前经典领域基于掩码策略的端到端单通道时域说话人分离方法的成功经验,本文提出了一种基于时-图域单通道说话人分离方法的语音图信号增强技术来消除噪声干扰,并完整提取语音信号。同时这也为类语声干扰场景中的有用语音增强,提供了新思路。而对于端到端单通道时域说话人分离方法通常使用由一维卷积层所构成的编码器通过滑动窗口将时域信号转换为潜在空间里的特征。对于编码器的滑动窗口的大小,若其过大会导致编码器无法捕获潜在特征之间的细节信息,而滑动窗长过小又会导致网络计算复杂度大的问题。为解决此问题,本文利用前期所提出的语音图移算子为潜在特征构建其图拓扑结构和图邻接矩阵。在不改变编码器的滑动窗长和增加网络计算复杂度的基础上,我们利用此图邻接矩阵为潜在特征构建一种图卷积网络来聚合潜在特征与其周围潜在特征之间的结构细节,并将其称之为图特征。该图特征在原有潜在特征的基础上补充了潜在特征之间的结构信息,从而提高了原始时域单通道说话人分离方法的信号保真度。进而在该时-图域单通道说话人分离方法研究基础上,本文进一步提出了一种基于时-图域单通道说话人分离方法的图信号增强算法来处理复杂噪声环境下语音降噪问题,实现目标说话人有用信息的成功提取。仿真实验表明在纯净数据集和含噪数据集上,所提出的时-图域单通道说话人分离方法的SISNRi和SDRi评价标准上均优于基准方法。通过WHAM!-mix_single数据集,所提出的基于时-图域单通道说话人分离方法的图信号增强算法不仅有效抑制复杂背景噪声,而且成功提取目标说话人的有用信息。