基于多尺度多层级特征分析的声音事件识别研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:natural_jack
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音是传递信息的重要方式之一。利用机器自动检测和识别音频当中所包含的声音事件已成为一个重要研究课题,在环境监控、无人驾驶、海洋监测、机器人、健康护理等领域发挥着关键作用。声音事件识别的一般过程包括特征提取与特征选择,分类识别算法设计以及性能度量与模型评估。随着大数据与人工智能技术的蓬勃发展,基于数据驱动的深度学习方法已成为声音事件识别的主流方法。由于声音事件类别的多样性,不同种类的声音事件往往具有不同的事件尺度与特征层级,这给声音事件识别方法的研究提出了挑战。本文在分析一般声音事件识别方法的基础上,设计提出了多尺度多层级特征分析的方法,在此基础上分别对水下声音事件识别和空气声声音事件识别这两个应用场景进行了具体的研究分析。以空气声和水声数据为研究对象,分别从数据的预处理,深度模型的设计与选择,模型训练和实验结果分析三个方面进行分析。针对声音事件特征与时间尺度多样化的特点,本文提出了一种基于卷积循环神经网络的多尺度多层级特征分析的声音事件识别方法,即从特征输入考虑多尺度特征的串联,在网络层级之间采用多层级特征的级联,这种多尺度多层级特征的连接能够增强特征提取的有效性,提高检测识别精度,并且能够减缓模型的过拟合,增强模型的稳定性。基于空气声和水声数据集的相关实验结果表明,采用多尺度多层级特征分析的声音事件识别模型相比于单一尺度层级特征的模型有较好的识别精度。
其他文献
白云岩成因与模式研究一直是地学界研究热点之一,传统的研究更侧重于海相白云岩,对于湖相白云岩的研究稍显薄弱。伦坡拉盆地古近系始新统牛堡组发育了一套湖相白云岩,其形成
中国男子篮球职业联赛(CBA)自1995年成立以来,已经有25年的发展历程。在过去20多年的发展进程中,CBA联赛为地方经济的发展、城市形象的提升及后备人才的培养等方面做出了积极
At present,China is a leader in the fifth generation communications technology market(5G).The application of new standards in information transmission systems r
随着大数据时代的到来,越来越多的应用都朝着数据化的方向发展,用户对不同应用的使用需求正发生变化,逐渐从操作复杂的后端环境转移到简便的Web前端浏览器中。与此同时,3D打
经颅直流电刺激是一种在头皮特定部位施加微弱、恒定电流的非侵入式神经调控技术。通过直接对相关功能脑区的刺激,改变皮层兴奋性和神经元细胞活性,引发神经调节机制的可塑性
研究背景与目的:当今科技日新月异,将运动训练与新科技技术相结合已经是大势所趋,成为竞技体育训练的发展方向。经颅直流电刺激(transcranial direct current stimulation,tD
miRNAs是一类长度为22~25个碱基的内源性非编码RNA。它们在后转录水平调控基因的表达,并参与许多关键的生命过程,包括细胞的分裂、增殖和凋亡等。近年来,越来越多的研究表明,m
肝细胞癌是所有疾病中发病率和死亡率排在最高的疾病之一,国家癌症中心研究显示肝细胞癌发病率和死亡率在所有癌症中居前5位,严重地威胁到现代人们的生命安全。目前针对肝细
1.4-2μm近红外激光处于人眼安全波段,其中1.5μm波段不仅对人眼的损害较小,也处于大气主要的投射窗口,在激光测距、光电对抗、激光医疗等军事和民用方面都有着重要的应用前
新一代大容量、高可靠无线通信中,信道编码和协作传输技术十分重要。针对现代无线通信信道状况复杂,通信质量较差等问题,本文主要开展了极化编码协作技术研究。首先,介绍了现