基于特征融合与神经网络的声音事件识别

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:wzy_shun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,声音事件识别技术近年来受到了广泛的关注,该技术在音频监控与医疗诊断等领域中具有重要价值。声音事件识别过程分为特征提取和分类识别两个部分,在特征提取方面,通常使用声谱图,它是声音信号的“可视性语言”,可同时体现声音信号的时域和频域信息。在分类识别方面,通常使用卷积神经网络(Convolutional Neural Network,CNN),它具有强大的特征表达能力,但不能有效处理输入数据中的时间上下文信息,且随着网络层数的加深,在训练过程中容易产生梯度消失或爆炸等问题。另外,当任务要求提升时,模型结构不断复杂化,单一特征很难继续支撑繁杂的工作。因此针对以上问题,本文使用特征融合的方法,并对CNN进行改进,用于声音事件识别。论文的主要内容如下:1.提出基于多特征通道与挤压激励残差网络的声音事件识别方法。首先对声音信号进行处理得到对数梅尔谱图、对数耳蜗谱图与对数恒定Q变换谱图;然后将这三个特征以类似于图像中RGB模型的方式进行特征通道融合,综合特征包含的不同信息,作为挤压激励残差网络的输入;挤压激励残差网络是将挤压激励模块引入到残差网络中,先通过卷积层获取很多有用信息,然后送到包含着残差模块与挤压激励模块的层中,关注通道之间的关系,使与任务相关特征得到增强,无关特征得到抑制,之后送到全局平均池化层来减少训练参数数量,降低模型过拟合的风险,最后使用Softmax层对声音事件进行分类。实验结果表明,所提方法可以取得较好的识别结果。2.提出基于特征融合与卷积-门控循环单元神经网络的声音事件识别方法。特征融合是采用级联方式将对数梅尔谱图、对数耳蜗谱图与对数恒定Q变换谱图进行融合,增加特征包含的信息量,提高特征的丰富度,得到有利于分析处理的特征。另外,CNN虽然能有效地提取特征,但不能很好的对时间上下文信息进行表达,而门控循环单元神经网络不仅能缓解循环神经网络中存在的梯度消失或爆炸问题,还可以很好地弥补CNN的缺陷,为了从这两种网络中受益,提出卷积-门控循环单元神经网络,该网络由两条不同的路径(CNN与门控循环单元神经网络)组成,CNN路径提取输入数据特征,而门控循环单元神经网络路径学习输入数据内的长期依赖性。实验结果表明,所提方法可以取得较好的识别结果。
其他文献
黑磷具备可调的直接带隙以及较高的载流子迁移率,弥补了石墨烯和过渡金属硫化物的不足,受到研究者的广泛关注。然而,黑磷在自然环境中却因易降解而限制了其在某些领域的应用。金属原子吸附是在不破坏黑磷固有优异性能的情况下,实现黑磷环境热稳定的最有效策略。过渡金属Fe原子吸附在黑磷表面,不仅可以有效提高黑磷的环境稳定性,同时也进一步丰富了黑磷的电子性质,而通过施加应变可以进一步调控吸附体系的电子结构。基于稳定
光电化学(PEC)分解水可以通过利用半导体材料将太阳能转化为氢能(H2),是解决化石燃料枯竭和环境污染等问题切实可行的途径。赤铁矿(α-Fe2O3)具有合适的带隙宽度(1.9-2.2 e V)、制备成本低廉以及光电化学稳定性良好等诸多优点,是极具发展潜力的光阳极半导体材料之一。然而其自身固有的一些缺陷严重限制了其在光电化学分解水中的实际应用。α-Fe2O3较差的本征电导率导致了它体内光生载流子的迁
近些年随着电脑、智能手机等电子设备的普及,每秒所需传输的信号量日益增长,对信号的传输速度即带宽提出了新的标准;同时,便携式电子产品对功耗、面积有了更高的要求。传统的一些接口技术逐渐无法满足要求,急需一种传输速度更快的接口技术来完成现在的数据传输。作为一种新兴的高速信号传输技术,低差分电压信号(LVDS)技术采用低摆幅差分信号传输数据,连接方式有点对点或点对多点以及双向传输,相较于数字和模拟的信号传
混沌动力学与人工神经网络的结合是当前研究的热门领域之一,其中复合吸引子的构建与预测是一个新颖且具有挑战性的方向。一方面,与单一类型的吸引子相比,复合吸引子具有更高的复杂度和更为丰富的动力学行为,从而在加密领域具有广泛的应用前景。然而,产生复合吸引子的混沌系统(以下简称复合混沌系统)结构往往较为复杂,并且构建这种系统始终缺少一种简单且通用的方法。另一方面,近期许多工作均指出对于混沌系统产生的自激或隐
低维体系是当今材料科学和凝聚态物理领域关注的焦点之一。一维材料具有比二维材料更为显著的量子限域效应,这一特点也赋予了其更为突出和优异的物理化学属性。过渡金属硫化物纳米线作为典型一维结构,与单纯半导体性的层状2H相过渡金属硫化物不同,其既可为半导体性,亦可呈金属性,其电子性质取决于材料中硫族元素的种类,利用这一特性有望实现全过渡金属硫化物纳米线电子电路。系统研究过渡金属硫化物纳米线的物性可为低维材料
混沌控制作为混沌应用研究重要的课题之一,一直以来都受到广泛关注。混沌控制主要指通过某种控制策略有效地影响混沌系统的动力学行为,使其发展成为实际所需要的状态。从实现目的上,混沌控制的研究主要分为混沌增强和混沌抑制。混沌增强主要指增强非线性系统的混沌强度令信号变得更加无序,因此混沌信号可被用于加密图像或音频加密,广泛用于安全通信等领域;而混沌抑制主要指削弱或消除系统中的混沌现象,使其不会对某些实际工程
氨作为一种重要的化工产品已广泛应用于农业及新能源等领域。传统Haber-Bosch方法合成氨需消耗大量化石能源,同时产生大量二氧化碳,会导致严重的能源与环境问题。因此研究绿色制氨新技术具有重要的理论及实际意义。电催化氮气(N2)还原(eNRR)制氨是一种在电催化剂作用下直接将N2电还原为氨的绿色制氨新技术,具有反应条件温和及零碳排放等优点,因而备受关注。不过eNRR制氨仍面临氨产率低及法拉第效率差
随着社会科技水平的发展,湿度传感器已被广泛应用于工业以及日常生活当中。传统湿度传感器的湿敏机理大多是基于表面吸附机制,在低湿环境中质子跳跃难以受到微量水分变化的影响,导致基于表面吸附机制的湿度传感器难以实现低湿探测。湿致变色材料对水分子的体吸附行为能够导致材料本身的晶体结构发生变化,使其在湿度传感器领域得到了广泛的关注。在本工作中以湿致变色材料溴化镍(NiBr2)作为研究对象,对NiBr2的变色行
综合能源系统(integrated energy system,IES)可实现电能、天然气能源和热能等多能源的协同供应,有效提高分布式可再生能源的就地消纳能力,在满足用户需求的前提下减少对外电网的依赖,得到了广泛的研究与关注。电-气区域综合能源系统由电力系统、天然气系统及能量中心构成,实现区域范围内配电网、配气网、区域能量中心及其它区域能源系统之间的互补支撑。确定性多能流计算是IES分析与运行的重
中子星是宇宙中致密星体的一种,拥有独特的性质。它的极端物理条件如高密度、高温、高磁场、快速旋转等可以帮助我们更好地了解致密星体的性质,同时也可以用来验证现代物理的诸多理论。对中子星双星系统的研究,如系统的轨道周期、偏心率、伴星质量等,能够帮助我们了解脉冲星的起源及演化。论文主要研究了极亮X射线源的磁场和吸积过程,以及毫秒脉冲星的形成机制及演化特征。论文大致框架分为四个部分。第一章简要介绍了在中子星