基于双路径循环神经网络的单通道语音增强

来源 :信号处理 | 被引量 : 0次 | 上传用户:da330136324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着神经网络的应用,语音增强效果显著提升.但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果.为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中.该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block).DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模.实验结果表明,相比于单一网络结构,DPRNN在已知噪声和未知噪声条件下均取得最好结果.
其他文献
当前,随着城市发展进程加快、产业结构快速转型,浙南某市的消防安全工作在监管力量、基础设施、救援力量、数字管控等方面逐渐出现“四个不相适应”问题.结合工作实际,建议从强化顶层设计、健全治理体系、推进创新驱动、夯实基层基础、加强队伍建设等五大方面入手,推动该市消防工作再上新台阶.
针对基于时频掩蔽的分离方法在多声源场景下的分离效果不佳的问题,论文提出一种利用概率混合模型的理想比率掩蔽多声源分离方法.首先,利用冯·米塞斯分布对时频点处方位角估计进行拟合以及拉普拉斯分布对归一化声压梯度信号向量进行拟合,由此建立概率混合模型.其次,利用期望最大化算法对模型参数进行求解,估计各声源对应的理想比率掩蔽.最后,利用估计出的理想比率掩蔽,从麦克风采集信号中分离得到各声源信号.实验结果表明,与现有基于时频掩蔽的多声源分离方法相比,论文所提方法在欠定场景下具有更好的分离效果.
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担.本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统.该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符.模型训练生成单一模型,其网络参数为所有语种共享.在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人.目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题.针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法.该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换.实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降.本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰.由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达.本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验.在
2020年,世界卫生组织宣布COVID-19疫情为大流行病.为了实现COVID-19快速地、可靠地检测,本研究通过语音信号分析技术来寻找感染COVID-19的语音信号特征,利用咳嗽声片段和语音片段对是否感染CO-VID-19做出自动判断.在INTERSPEECH 2021 ComParE竞赛提供的相关数据集和baseline的基础上,本文首先利用语音端点检测技术对数据集进行增广,其次在特征集中加入语音质量特征,使相关baseline结果得到了提升,证明了语音质量特征在对COVID-19自动语音检测任务上的
维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低.针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码.实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能.在
方言语音识别是方言保护的核心环节.传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高.本文提出的端到端方言语音识别模型充分发挥了残差网络(Residual Network)和 Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别.在基准赣方言和客家方
传统的歌声检测过程往往包含了复杂的特征工程,而基于深度神经网络统一框架的算法则可以利用其强大的学习能力学习到特征,从而忽略特征工程.但是,这些学习到的特征通常得不到重要性区分,在网络中所占权重相同.针对这一问题,提出在卷积神经网络中嵌入点积自注意力模块的算法,该算法通过学习得到各个特征的注意力分布,调整注意力权重,使得卷积神经元在“观察”这些特征时能区分轻重,从而提升网络的整体性能.在实验部分,通过在两个公开数据集下测试,并和基准模型进行对比,准确率分别提升1.96%和1.76%,证明了该算法对提升歌声检
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务.该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量.在交互式