小波域中鲁棒性的有监督单通道语音增强

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:snowsky001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为数据通信的简易媒介,在日常生活中被频繁使用。语音信号在语音处理系统中应用广泛,例如助听器,语音识别,便携式应用程序等。但是,环境或现实世界中的噪声会使得语音信号的质量和清晰度有所下降。因此,在单通道语音增强(SE)框架中,从嘈杂的语音信号中估计出干净的语音成分是一项困难而具有挑战性的任务。由于在某些情况下很大一部分噪声是非平稳的,并且可能是具有类似语音的特性。因此,隐藏非平稳噪声始终是一个亟待解决的问题。SE算法的目的是通过抑制干扰噪声,在不显著恶化语音的情况下,提高语音的质量和清晰度。传统的SE方法使用短时傅立叶变换(STFT),它将时域输入信号分为足够小的段,并认为每个片段的信号都是平稳的。为此,它需要一个窗函数。如果采用较窄的窗,则可获得最佳的时间分辨率,并保证了窗内信号的平稳性,但频率分辨率较差。再者,如果考虑更大的窗,则频率分辨率将得到改善,但信号平稳性的假设和时间分辨率都将变弱。时间分辨率问题是STFT的第一个问题,因为我们无法精确知道信号在什么时间点存在什么频率,并且可以通过在可接受的水平上使用小波变换来得到多分辨率特征。传统的SE方法的第二个问题是它们仅仅增强了噪声幅度谱,并从增强的幅度谱和噪声相位重建了增强后的语音信号。因此,这种改善后的语音信号的去噪效果不是很明显。我们的目标是使用小波变换在这些问题中取得适当的平衡,该变换将时域信号分解为低频和高频分量,其中低频和高频分量分别对应于一个近似量和一些细节系数。在第一项工作中,提出了一种新颖的单通道SE方法,该方法采用平稳小波变换(SWT)和非负矩阵分解(NMF)以及串联分帧过程(CFP)和子带平滑比率掩码(SSRM)。我们使用SWT克服了离散小波包变换(DWPT)的平移变化特性,然后应用NMF分解子带。在NMF之前,分别使用CFP和自回归移动平均(ARMA)滤波器进行平滑分解,并使语音更加稳定和标准化。初级估计信号通过SSRM,SSRM由标准比率掩码(SRM),平方根比率掩码(SRRM)和归一化互相关系数(NCCC)组成,以利用它们。算法的性能通过使用IEEE语料库和不同类型的噪声来评估。通过应用这种方法,客观的语音质量和清晰度会明显恢复,并且其性能优于其他相关方法,例如常规的STFT-NMF和DWPT-NMF。在第二项工作中,提出了双树复数小波变换(DTCWT)和基于NMF的SE方法,该方法通过联合学习过程来利用SSRM。DTCWT用于分别解决DWPT和SWT的平移变化问题和冗余问题。我们还计算了噪声和嘈杂语音之间的比率掩码(RM)。同时学习相应的干净语音训练数据和噪声训练数据的RM。在NMF之前使用ARMA过滤过程进行平滑分解。提出了一种SSRM,它利用了 SRM和SRRM联合使用的优势。考虑到小的训练数据,较少的迭代和有限的冗余性,我们提出的方法可以很好地工作。系统评价的客观指标表明,该方法提高了严重嘈杂条件下的语音质量和清晰度。同样,在低SNR情况下,它在STOI和PESQ分数方面比DNN-IRM方案更好,因为DTCWT将输入信号分解为一组具有很高时频分辨率的子带信号。良好的时频分辨率表示信号的高频成分包含良好的时间分辨率,而低频成分则保留良好的频率分辨率。结果,经由NMF从噪声信号充分估计了语音信号。在未知噪声情况下,它明显优于现有的SE方法。在第三项工作中,建立了一种新颖的单通道SE策略,该策略使用由DTCWT和STFT组成的双重变换以及稀疏非负矩阵分解(SNMF)。第一个变换属于DTCWT,它用于输入信号,以克服由于DWPT的下采样而产生的信号失真,并传递了一组系数。第二个变换为STFT,将STFT应用于每个系数并生成一个复频谱。SNMF用于每个幅度谱图,以提取语音成分。由于DTCWT使用滤波器分离了时域信号的高频和低频分量,而STFT可以精确地挖掘时频分量,因此可以提高估计语音的质量并消除SE处理引起的失真。使用不同的评估指标(包括HASQI,HASPI,PESQ,STOI,fwsegSNR和SDR)对算法的性能进行评估。实验结果证实,在嘈杂条件下,所提出的SE技术的整体性能优于STFT-SNMF,STFT-GDL和STFT-CJSR方法。在未知噪声的情况下,所提出的方法在所有SNR条件下都优于 STFT-SNMF,STFT-GDL和STFT-CJSR方法。在第四项工作中,提出了一种双域SE方法,该方法使用生成联合字典学习(GJDL)算法来联合学习信号的实部,虚部和幅度值部分以实现语音增强。在第一步中,我们将DTCWT应用于时域信号将其分解为一组子带信号。然后,我们对每个子带信号进行STFT,得到每个子带信号的实部、虚部和幅度,并保留相位部分以进行进一步处理。我们利用GJDL方法来准备联合字典,然后使用具有一致性标准的批量最小角度回归算法(LARC)进行稀疏编码。获得初始估计,并将实部和虚部合并。应用子带二进制比率掩模(SBRM)以形成信号,并且具有相位的增强幅度部分成为第二信号。由于通过上述处理获得的两个信号具有不同的精度,因此通过使用基尼系数将它们组合在一起以生成最终的估计干净语音信号。与所有评估指标中的可用算法相比,该算法具有最佳性能。
其他文献
随着时代的发展,人与人之间沟通更加方便,人们获取信息的渠道和手段也被拓宽。因此,消费者在挑选商品时能够获得更多的信息,而这些信息也在直接或者间接地影响着消费者的最终购买行为。口碑是消费者对某种商品的一种主观心理评价,它在一定程度上反应了消费者对于该品牌的认知,并且通过信息传播会影响到其他相关消费者甚至更多人的购买行为选择。而随着现代信息技术的发展,各种社交媒体深入人们生活,口碑传播也逐渐从口口相传
水下机器人能够代替人类进行危险水域的探查作业工作,是海洋探测的重要工具。新型的遥控自主式水下机器人(Autonomous Remotely-operated Vehicle,简称ARV)同时具备了遥操作能力和自主运动的能力,在完成水下探查、采集、救援等工作时相较于传统的水下机器人有更大的优势,不仅保障了技术人员的安全,还能大幅度提高机器人的工作效率并且减少相同工作的重复性,是当前研究的热点。本研究
本实验通过对防晒霜各添加成分进行对比分析,选择一款较为合理的配方.以PCA-Na作保湿剂,并分别加入不同量的蚕丝蛋白粉、传统防晒剂ZnO以及不加防晒剂制成防晒霜.对它们的保
新《刑事诉讼法》于1997年1月1日正式施行,从运行的情况来看,公安机关切实转变执法观念,大胆扎实工作,保持了全市治安形势的持续稳定,总体上讲,实现了从原刑诉法到新刑诉法的平稳过
近期公布的“2008年国家规划布局内重点软件企业名单”中,东信北邮信息技术有限公司(简称“EB”)再次榜上有名,这也是EB第6次获此殊荣。国家规划布局内重点软件企业是中国软件行
课堂是教学的主阵地,是学生获取知识的主要途径和实现师生良好互动的舞台。而课堂导入作为一节课的开端,其无论是对于学生学习兴趣的激发,亦或是对于课堂教学效果的优化都起
要全面落实小学语文新课标精神,搞好小学语文阅读教学,应当努力解决以下四个方面的问题:
<正> 现今,要求橡胶零件在较高速度和较大负荷及更严峻的环境情况下使用。厂商和设计工程师不断共同探索使用经济合理和改善了特性的热塑性橡胶和硫化橡胶。用杜邦公司的kevl
"我就像一个小孩子,眼界总比胃口大。有那么多电影,我都想要去拍。过去我经常坐在那里想,为什么就没有人拍个林肯主题的电影。如今,我可以亲自把它拍出来。"——斯皮尔伯格多
目的:观察作业治疗(occupational therapy OT)对脊髓损伤(Spinal Cord injury SCI)患者日常生活活动能力(activities of daily living,ADL)的影响.方法:对45例脊髓损伤患者进行系统作