基于改进池化层的弱标记声音事件检测

来源 :信号处理 | 被引量 : 0次 | 上传用户:xionglongyan0817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了 attention和lin-ear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种“指数可学习的幂函数softmax”池化层.实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用“指数可学习的幂函数softmax”池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate(ER)从0.730降低到0.667.
其他文献
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担.本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统.该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符.模型训练生成单一模型,其网络参数为所有语种共享.在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人.目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题.针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法.该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换.实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降.本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰.由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达.本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验.在
2020年,世界卫生组织宣布COVID-19疫情为大流行病.为了实现COVID-19快速地、可靠地检测,本研究通过语音信号分析技术来寻找感染COVID-19的语音信号特征,利用咳嗽声片段和语音片段对是否感染CO-VID-19做出自动判断.在INTERSPEECH 2021 ComParE竞赛提供的相关数据集和baseline的基础上,本文首先利用语音端点检测技术对数据集进行增广,其次在特征集中加入语音质量特征,使相关baseline结果得到了提升,证明了语音质量特征在对COVID-19自动语音检测任务上的
维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低.针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码.实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能.在
方言语音识别是方言保护的核心环节.传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高.本文提出的端到端方言语音识别模型充分发挥了残差网络(Residual Network)和 Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别.在基准赣方言和客家方
传统的歌声检测过程往往包含了复杂的特征工程,而基于深度神经网络统一框架的算法则可以利用其强大的学习能力学习到特征,从而忽略特征工程.但是,这些学习到的特征通常得不到重要性区分,在网络中所占权重相同.针对这一问题,提出在卷积神经网络中嵌入点积自注意力模块的算法,该算法通过学习得到各个特征的注意力分布,调整注意力权重,使得卷积神经元在“观察”这些特征时能区分轻重,从而提升网络的整体性能.在实验部分,通过在两个公开数据集下测试,并和基准模型进行对比,准确率分别提升1.96%和1.76%,证明了该算法对提升歌声检
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务.该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量.在交互式
近年来,随着神经网络的应用,语音增强效果显著提升.但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果.为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中.该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,
作为阵列信号处理的一个基本问题,波达方向估计在现代通信领域有着广泛的应用.常规估计方法通常基于高斯噪声假设.而当阵列接收数据包含Alpha稳定分布脉冲噪声时算法将完全失效.针对Alpha稳定分布噪声下的波达方向估计问题,本文定义了一种改进的相关熵算子——中值离差相关熵,并从理论上证明了它的有界性.以此为基础结合MUSIC算法提出了一种波达方向估计新方法.该方法不需要噪声先验知识,且在脉冲噪声环境中具有鲁棒性.仿真实验表明,即使在短快拍、强脉冲噪声的恶劣环境下,本文方法依然具有良好的性能.