声音事件定位与检测的深度网络模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yy692451568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,声音事件定位与检测(Sound event location and detection,SELD)被广泛应用于各个领域。如在易燃区域通过火焰燃烧声音的定位与检测,做出及时警报,将火情控制在萌芽之中;在地震发生区域通过寻找并定位求救人员的声音,来解救被困人员。鉴于此事实,将声音事件检测与定位结合在一起是合理的,不仅能识别声音的类型和时间位置,还可以估计其空间位置。该论文应用深度神经网络方法,探究声音事件定位与检测模型的有效性。首先,搭建门控卷积循环神经网络模型。该模型解决声音事件检测(Sound event detection,SED)和声音到达方向(Direction of arrival,DOA)估计任务,与DCASE 2019基线系统相比,门控卷积循环神经网络模型不仅能够定位和检测不同环境下的重叠声音事件,同时对于声音事件检测和声音到达方向估计的精确度还有所提高,比基线方法效果明显更好。其次,搭建基于残差2的时间卷积神经网络模型。残差2模块通过不断增加神经网络的感受野来摸索更细粒度级别的多尺度表达能力。在该模块中加入了挤压、激励和重加权操作,来融合特征通道间的空间维度。引入时间卷积模块,使网络结构简单化,并且加快训练速度。在DCASE 2020挑战任务3的数据集上进行测试,结果表明该网络框架在声音事件定位与检测系统性能上表现更优越。最后,搭建Ghost卷积时频分割注意力网络模型。其中,Ghost卷积与普通卷积相比,使用参数少,节省计算资源。时频分割网络通过训练声音片段,得到时频域中的声音事件,使后续模型更好地识别、增强和分割声音事件。加入自注意力机制,提高对SELD声音特征的注意力。用于DCASE 2020任务3 SELD任务,与基线系统和挑战赛其他团队进行对比,该模型有很大的实用性。
其他文献
随着社会的快速发展,人们对无线网络提出了越来越高的要求,移动终端业务请求的数量和种类呈指数级别增长以及无线网络中日益增长的资本费用和运营支出都阻碍了服务提供商引入现代技术,无线网络虚拟化作为无线通信的关键技术之一,可以有效地解决些问题。但是在无线网络虚拟化中,其资源有限,如何有效合理地分配和利用这些资源,仍然是急需解决的一个难点。因此,本文针对虚拟化无线网络中的一些资源分配方式存在的问题,根据不同
基于共轭体系的离域自由基具有很多优异的物理性质,对光、电、磁等多种外界刺激都具有非常敏感的响应。通过对分子结构和自旋相互作用的调控得到有机半导体甚至有机导体,在有机自旋电子学、信息存储、生物探针等多个方向具有一定的应用潜力。目前其应用的瓶颈仍然是较差的稳定性,因此本论文以高度缺电子的苝二酰亚胺(PDI)为基本结构,通过优化设计、制备环境稳定的苝二酰亚胺阴离子自由基。首先,本文在苝酰亚胺苝核湾位引入
随着微纳光学领域的不断进步,表面等离子体技术便吸引了科研学者们的研究目光。其中表面等离子体波实质上就是入射光与金属中游离的电子之间耦合而形成的,进而将光紧紧束缚在介质层中,具有高度的局域特性以及近场增强的特性。将其应用在波导结构上,可以突破光的衍射极限影响以及具有纳米级光场限制能力。而在众多波导结构当中,以其混合型波导有着更佳优良的特性:较强的光场限制能力以及较低的传输损耗。本文在表面等离子体波导
便携式电子产品在生活中的广泛使用推动着二次电池的不断发展,但电池中无机电极材料容量较低、成本高、污染环境等问题限制了其应用。相对无机电极材料来说,有机电极材料因其理论比容量高、资源丰富、结构可设计性强等特点,被誉为最有优势的下一代绿色电池电极材料。其中新型醌类电极材料杯六醌(Calix[6]quinone,C6Q)具有12个活性位点、高达446 m Ah g-1的理论比容量和优异的储锂/钠性能,是
随着时代的发展,人们对数据传输速率及容量的要求越来越高,集成光学的出现解决了传统电互联中信息容量小、电磁串扰大和性能不稳定等问题。其中硅基纳米介质波导由于高折射率差、高集成度、与CMOS工艺兼容以及成本低等优势,受到科学家的重视。但是高折射率差也带来了负面影响,即波导中的偏振问题。本文主要针对偏振问题展开的,首先是硅基片上偏振的应用,设计了一种基于偏振复用器的高性能传感器,然后提出了一种偏振可调的
微弧氧化(MAO)过程包括阳极氧化阶段、微弧氧化阶段和弧光放电阶段。作为微弧氧化膜生长的起始点,研究微弧氧化过程中阳极氧化膜的形成-生长,及其对后续等离子体放电建立和微弧氧化膜形成的影响具有重要意义。本文选用了微弧氧化最常用的三大类电解液硅酸盐(硅酸钠)、铝酸盐(铝酸钠)和磷酸盐(磷酸钠、六偏磷酸钠、三聚磷酸钠和焦磷酸钠),选用AA1060纯铝为基体。通过分析在不同类型电解液中,MAO初期膜层结构
压缩感知是近些年来兴起的一种新的信号处理技术,以远低于采样定理的采样频率对信号进行采样,将信号采样与压缩合二为一。采用半确定性循环矩阵作为测量矩阵,测量值通过利用确定性序列循环卷积信号,然后进行随机二次采样获得的方法称为卷积压缩感知。该文主要研究测量矩阵的构造。随机矩阵是一类性能优良的测量矩阵,可以很大概率地恢复信号。然而随机测量矩阵在实际应用时所需存储量巨大,硬件难以实现的缺点,因此构造所需存储
稻瘟病是水稻主要病害之一,严重影响世界稻米产量,其致病菌为丝状真菌稻瘟病菌(Magnaporthe oryzae)。目前水稻抗稻瘟病育种是主要的防治方法,同时辅以化学和生物防治,但由于稻瘟病菌生理小种易突变,高抗品种长期种植也会变得感病、长期使用传统农药会增强稻瘟病菌的耐药性,导致稻瘟病的防控十分艰难。稻瘟病菌作为研究真菌-寄主互作的重要模式生物之一,深入了解稻瘟病菌致病机制,对稻瘟病的防治具有重
汽轮机转子作为汽轮机机组工作的核心部件之一,对其表面温度进行实时准确的监测关系到机组的工况调节和稳定运行。但由于现有测温设备无法对高速旋转中的汽轮机转子进行接触式测量,而非接触式红外测温设备又在真空、水雾、动态的汽轮机内部环境中测温效果不佳。此外,为避免破坏汽缸的应力结构,对测温探头的体积也有着严格的限制。为了有效解决上述问题,本文设计并实现了一套包括温度实时监测、数据处理、发射率修正、数据上传等
多功能校准源是电学计量体系中重要的组成部分,广泛地应用在全国各个计量站和科研院所中。多功能校准源能实现交直流电压、电流以及阻抗等常见基本电学量标准信号的输出,量程宽且操作简单,对使用人员十分友好,在校准数字万用表方面发挥着无可替代的作用。针对目前国内多功能校准源产品与国外先进产品之间的差距,推动实现精密仪器国产化,本课题将对多功能校准源的总体结构和直流基准部分进行深入研究,设计并绘制多功能校准源的