基于多任务学习与注意力机制的音频事件检测研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:kaji2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频事件检测是指通过对音频数据进行分析,识别出其中包含的音频事件,为其标记音频事件标签,并确定每个音频事件发生的起止时间。音频事件检测技术在一些重要领域有着广泛的应用,例如自动驾驶、音频监控、多媒体检索与推荐和智能机器人等。本文基于DCASE平台提供的数据,对音频事件检测进行了深入的研究。首先提出一种联合音频场景识别和音频事件检测两个任务的多任务学习音频事件检测算法。算法以音频事件检测作为主任务,以音频场景识别作为辅助任务,通过音频场景辅助任务辅助提高音频事件检测的性能。算法的音频场景识别任务和音频事件检测任务分别在两个不同数据集上实现,不需要对音频数据进行额外的标注,解决了数据标签的限制问题。算法通过实验证明了音频场景识别作为辅助任务的有效性。与基于单任务学习的音频事件检测算法相比,本文提出的联合音频场景识别和音频事件检测两个任务的多任务学习音频事件检测算法的检测性能得到明显提升。其次,本文提出了一种基于音频场景引导注意力机制的音频事件检测算法。算法以音频事件信息作为主特征,以音频场景信息作为辅助特征,将音频场景信息通过注意力机制嵌入到音频事件信息中,并基于嵌入了音频场景信息的音频事件特征进行音频事件检测。算法通过实验证明了音频场景引导注意力的有效性。算法通过注意力机制实现了与目标事件相关的信息的挖掘,有效提高了音频事件检测性能。
其他文献
忆阻器是一种具有数据存储功能的半导体器件,在同一个器件上,可以实现多级存储和逻辑运算,为打破传统冯·诺依曼架构并实现神经形态计算打下了基础,其应用前景不可估量。同时,相比于MOSFET等有源器件,无源忆阻器具有尺寸小、结构简单、均匀性和重复性好等优势,在神经形态计算、图像处理等人工智能领域有着重要的作用,引起了科研工作者的极大研究兴趣。传统三维铁电材料忆阻器的存储机制主要归功于材料内部在电场作用下
学位
糖尿病视网膜病变(Diabetic Retinopathy,DR)是一种常见的眼部疾病,对DR患者来说早期的诊断与治疗非常重要。在临床诊断中,眼科医生通常根据眼底相机拍摄的眼底图像来对DR进行分类。整个过程完全取决于医生的经验,既费时又费力。随着大数据和深度学习的发展,计算机辅助医疗诊断成为研究的热点,但是对于医学图像来说数据的获取往往是有限的。面对这一问题,本研究以眼底图像为主要研究对象,着力探
学位
随着物联网、人工智能和第五代移动通信技术等新兴技术的发展,人们对高速大容量通信系统的需求呈爆炸式增长。尽管通过波分复用和偏分复用技术以及多种调制方式的应用,在容量方面有了显著的改进,但指数级增长的数据需求仍缺乏足够的带宽。涡旋光束的不同轨道角动量(Orbital Angular Momentum,OAM)模式间相互正交,可以看作一个新的自由度,通过将不同模式的轨道角动量作为表示多进制的数据符号或多
学位
光纤作为光纤激光器最重要的组成部分,由于具有良好的柔绕性,可以使光纤激光器设计得灵活和小巧,从而易于系统集成、性价比高等。并且,光纤激光器在材料加工、通讯、医疗、军工等领域都有着非常广泛的应用。此外,掺镱(Yb3+)、掺铒(Er3+)和掺铥(Tm3+)等稀土掺杂光纤的研究与发展极大地促进了光纤激光器领域的发展。其次,在光纤通信应用领域,由于稀土掺杂介质在光纤中能够引起增益机制从而实现光放大,使光纤
学位
3D技术与现代生活息息相关,变得越来越流行,它可以为用户提供任何视点和角度的交互式以及沉浸式的视觉体验,因此,高质量的3D视觉体验成为人们现代生活中不可或缺的重要部分。而深度图像作为3D内容的关键组成部分之一,在许多计算机视觉任务中起着非常重要的作用,例如自动驾驶、虚拟现实、3D建模等,它反映了深度图像采集设备与真实场景的距离信息。传统的彩色相机可以轻易的捕获纹理丰富的高分辨率(High Reso
学位
细菌与人类的生产生活密切相关,在生态环境中发挥着至关重要的作用。但其中存在着大量的致病细菌,不仅会导致严重的细菌污染问题,危害人类的健康,甚至会导致人类死亡。如今,随着食品工业化的进一步发展,致病细菌引起的问题会大规模爆发,对食品安全和公共卫生健康造成巨大的威胁。因此早期地检测对于预防致病细菌引起的疾病以及防范重大环境公共卫生安全风险至关重要。数字微流控技术是近些年来发展起来的一种控制离散的液滴在
学位
随着信息技术的发展,可逆信息隐藏(Reversible Information Hiding,RDH)技术应用越来越广泛,医学、军事等领域都有着它的身影。近年来网络发展迅速,信息交互加快,如何在信息交流过程中,保证图像的低失真度,提高图像的保密程度这一课题,是当前RDH研究的重要方向。目前RDH已经在图像保密、原始图像的低失真等方面有了一定的研究。本文首先针对RDH当前数据嵌入容量低的问题,着重分
学位
由于互联网技术的飞速发展,数字图像相比于从前变得更加容易获取,更加容易传输,并且其在多种领域都有涉及。在此种情况下,不管是从商业机密,还是医疗信息又或者是个人隐私来说,对数字图像安全性的保护变得极其重要。其中感知加密算法是一种有效的方法,它可以只加密部分有用的信息来防止多媒体视觉内容的泄露,同时又减少了加/解密的开销。正因为这些优点,如何对感知加密图像的安全性评价变得非常重要。传统的安全性分析方法
学位
超像素方法是图像分割的常用方法之一,基于梯度和图像密度的超像素分割方法可以将图像进行更为简练的筛选和分层表示,以此降低后期工作处理的图像单元个数。但其难以做到可微,因此难以将超像素方法作为一个模块插入到原始的卷积神经网络中进行训练和使用。基于超像素采样的方法和基于全卷积的超像素分割方法是将标准的卷积操作在规则的网格上定义,尝试将超像素算法纳入深度神经网络。但当这种方法应用于超像素时,效率就会降低。
学位
太赫兹波在电磁波谱中的地位相对特殊,和其他波段相比有着更加特殊的电磁特性,所以在安全监测、生物医学、信息通讯等领域都有着潜在的科研价值和应用前景。随着现代科学技术和半导体工艺技术的发展,使太赫兹发射源与相关探测设备的研究取得一定进展。但是,对于太赫兹调制器件仍然有较大的探索空间。目前,传统太赫兹调制器件存在体积大、损耗高、造价昂贵等问题。因此,开发具有高集成度、高效率、低成本的太赫兹调制器件是十分
学位