论文部分内容阅读
语音作为数据通信的简易媒介,在日常生活中被频繁使用。语音信号在语音处理系统中应用广泛,例如助听器,语音识别,便携式应用程序等。但是,环境或现实世界中的噪声会使得语音信号的质量和清晰度有所下降。因此,在单通道语音增强(SE)框架中,从嘈杂的语音信号中估计出干净的语音成分是一项困难而具有挑战性的任务。由于在某些情况下很大一部分噪声是非平稳的,并且可能是具有类似语音的特性。因此,隐藏非平稳噪声始终是一个亟待解决的问题。SE算法的目的是通过抑制干扰噪声,在不显著恶化语音的情况下,提高语音的质量和清晰度。传统的SE方法使用短时傅立叶变换(STFT),它将时域输入信号分为足够小的段,并认为每个片段的信号都是平稳的。为此,它需要一个窗函数。如果采用较窄的窗,则可获得最佳的时间分辨率,并保证了窗内信号的平稳性,但频率分辨率较差。再者,如果考虑更大的窗,则频率分辨率将得到改善,但信号平稳性的假设和时间分辨率都将变弱。时间分辨率问题是STFT的第一个问题,因为我们无法精确知道信号在什么时间点存在什么频率,并且可以通过在可接受的水平上使用小波变换来得到多分辨率特征。传统的SE方法的第二个问题是它们仅仅增强了噪声幅度谱,并从增强的幅度谱和噪声相位重建了增强后的语音信号。因此,这种改善后的语音信号的去噪效果不是很明显。我们的目标是使用小波变换在这些问题中取得适当的平衡,该变换将时域信号分解为低频和高频分量,其中低频和高频分量分别对应于一个近似量和一些细节系数。在第一项工作中,提出了一种新颖的单通道SE方法,该方法采用平稳小波变换(SWT)和非负矩阵分解(NMF)以及串联分帧过程(CFP)和子带平滑比率掩码(SSRM)。我们使用SWT克服了离散小波包变换(DWPT)的平移变化特性,然后应用NMF分解子带。在NMF之前,分别使用CFP和自回归移动平均(ARMA)滤波器进行平滑分解,并使语音更加稳定和标准化。初级估计信号通过SSRM,SSRM由标准比率掩码(SRM),平方根比率掩码(SRRM)和归一化互相关系数(NCCC)组成,以利用它们。算法的性能通过使用IEEE语料库和不同类型的噪声来评估。通过应用这种方法,客观的语音质量和清晰度会明显恢复,并且其性能优于其他相关方法,例如常规的STFT-NMF和DWPT-NMF。在第二项工作中,提出了双树复数小波变换(DTCWT)和基于NMF的SE方法,该方法通过联合学习过程来利用SSRM。DTCWT用于分别解决DWPT和SWT的平移变化问题和冗余问题。我们还计算了噪声和嘈杂语音之间的比率掩码(RM)。同时学习相应的干净语音训练数据和噪声训练数据的RM。在NMF之前使用ARMA过滤过程进行平滑分解。提出了一种SSRM,它利用了 SRM和SRRM联合使用的优势。考虑到小的训练数据,较少的迭代和有限的冗余性,我们提出的方法可以很好地工作。系统评价的客观指标表明,该方法提高了严重嘈杂条件下的语音质量和清晰度。同样,在低SNR情况下,它在STOI和PESQ分数方面比DNN-IRM方案更好,因为DTCWT将输入信号分解为一组具有很高时频分辨率的子带信号。良好的时频分辨率表示信号的高频成分包含良好的时间分辨率,而低频成分则保留良好的频率分辨率。结果,经由NMF从噪声信号充分估计了语音信号。在未知噪声情况下,它明显优于现有的SE方法。在第三项工作中,建立了一种新颖的单通道SE策略,该策略使用由DTCWT和STFT组成的双重变换以及稀疏非负矩阵分解(SNMF)。第一个变换属于DTCWT,它用于输入信号,以克服由于DWPT的下采样而产生的信号失真,并传递了一组系数。第二个变换为STFT,将STFT应用于每个系数并生成一个复频谱。SNMF用于每个幅度谱图,以提取语音成分。由于DTCWT使用滤波器分离了时域信号的高频和低频分量,而STFT可以精确地挖掘时频分量,因此可以提高估计语音的质量并消除SE处理引起的失真。使用不同的评估指标(包括HASQI,HASPI,PESQ,STOI,fwsegSNR和SDR)对算法的性能进行评估。实验结果证实,在嘈杂条件下,所提出的SE技术的整体性能优于STFT-SNMF,STFT-GDL和STFT-CJSR方法。在未知噪声的情况下,所提出的方法在所有SNR条件下都优于 STFT-SNMF,STFT-GDL和STFT-CJSR方法。在第四项工作中,提出了一种双域SE方法,该方法使用生成联合字典学习(GJDL)算法来联合学习信号的实部,虚部和幅度值部分以实现语音增强。在第一步中,我们将DTCWT应用于时域信号将其分解为一组子带信号。然后,我们对每个子带信号进行STFT,得到每个子带信号的实部、虚部和幅度,并保留相位部分以进行进一步处理。我们利用GJDL方法来准备联合字典,然后使用具有一致性标准的批量最小角度回归算法(LARC)进行稀疏编码。获得初始估计,并将实部和虚部合并。应用子带二进制比率掩模(SBRM)以形成信号,并且具有相位的增强幅度部分成为第二信号。由于通过上述处理获得的两个信号具有不同的精度,因此通过使用基尼系数将它们组合在一起以生成最终的估计干净语音信号。与所有评估指标中的可用算法相比,该算法具有最佳性能。