基于深层神经网络的多声音事件检测方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:comboyaoqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音作为人类感知周围环境和相互交流的重要信息来源,一直受到广泛研究者的关注和青睐。多声音事件检测就是使用机器对声音进行分析,判断出其中包含的内容,比如是“讲话声”还是“脚步声”,或者“讲话声”和“脚步声”同时发生。声音事件检测在安全监控、异常检测、情景感知、生物监测和内容检索中有着广泛的应用前景。传统的多声音事件检测系统主要使用非负矩阵分解(Non-negative matrix factorization,NMF)、高斯混合模型和隐马尔可夫模型(GMM-HMM)等。近几年,随着深度学习的迅速发展,基于深度神经网络的方法给检测性能带来了突破性进展。深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)相继在声音事件检测中获得了成功应用。然而,这些基于深度神经网络的方法没有针对性地解决多声音事件检测中的两个难点问题:事件间重叠以及数据量较少。因此目前事件检测的整体性能还比较低,这给其实用化带来了巨大的困难。本文围绕上述的两个难点问题,展开基于深度神经网络的多声音事件检测方法的研究。首先,从有效特征提取的角度出发,搭建了基于CNN-RNN的基线系统。我们使用CNN提取特征中的事件谱结构信息,并使用RNN对时间上下文信息建模。实验结果表明,和传统方法相比,这种方法可以取得更好的检测性能。其次,从事件重叠的角度出发,提出了基于CapsNet-RNN的多声音事件检测模型。我们使用胶囊对事件进行多角度建模,利用路由算法让网络从局部特征预测事件,并在此基础上使用RNN学习上下文信息。实验表明,这种方法在识别不同事件时具有挑选特征频带和通道的能力,有效提升了重叠事件的检测性能。此外,从当前标注数据集较小的角度出发,将自训练的半监督学习方法应用于多声音事件检测。实验表明该方法可以显著增加可训练数据,改善检测性能。最后,构建了两个基于变压器的声音数据库,并在变压器场景下验证了上述CNN-RNN和CapsNet-RNN方法的有效性。
其他文献
创新是中国快速持续发展的金钥匙,也是我中华民族发展的灵魂。随着知识经济这样一个新时代的到来,创新精神俨然成为解放生产力和大力发展经济的根本基础之一。而放眼全球,几乎大多数国家民族都在积极推进教育改革来培养创新人才、发展创新技术,而教育改革的工作,核心就是提高大众的文化素质教育水平和培养能力强、素养优的创新人才以适应并迎接已经到来的新时代。在接受高等教育之前,中学教育是学生培养其基础能力的一个重要阶
音乐在人类历史中起着重要的作用,在现今的数字时代更是如此。现在音乐的数量以指数的形式增长,与此同时,对音乐进行组织、分类、检索的需求也在不断增加。基于音乐情感的分
在人类活动中,情感智能尤为重要,确定情感类别是情感智能的核心。通常,相同语义内容可能表达不同情感,不同说话者表达情感的方式也有所差异,要使计算机能够完全理解说话者意
“走出去”作为国家重大发展战略,鼓励着越来越多的企业调整结构,参与到国际项目的市场竞争。但海外工程项目的风险远远高于国内项目,如果风险管理能力没有跟上,将会影响项目
目的研究从升麻属植物中提取得到的5种三萜类化合物升麻醇-3-O-β-D-木糖苷(化合物1),25-乙酰升麻醇-3-O-β-D-木糖苷(化合物2),25-氯脱氧升麻醇-3-O-β-D-木糖苷(化合物3),25-乙酰
数据中心、医院、电信、金融服务等领域对供电质量和供电连续性提出了较高的要求,需要连续不断的高质量电源以确保即使在灾难或灾后的危急情况下也能正常运行,传统不间断电源
目前营运商部署下一代互联网存在很多挑战,一是翻译和隧道等关键过渡技术普遍不成熟,无法现网规模商用部署;二是终端和内容迁移的动力不足;三是需要大量的网络改造投资。因此
山区高填方机场跨越地质单元多,挖填区不同道面段在飞机荷载作用下产生的附加动应力不同,跑道道面沉降差异显著,导致飞机和跑道相互作用力增大,加速跑道疲劳损坏。同时,飞机
【经典重现】《匆匆》教学支玉恒一、组织教学师:老师跟同学们聊一聊。老师说什么,你们就得回答我什么。可以吗?生:可以。师:同学们真精神。生:老师真精神。师:同学们真可爱
本文是以集安高句丽五盔坟5号墓室壁画中的四神图造型为研究对象,着重分析其形成以及特点,并且对同期同造型不同地域比较的专题研究。本研究从美术史角度,借助美术考古资料,