【摘 要】
:
近年来,基于弱标签音频数据的弱监督学习已经成为声音事件检测中的热点研究问题。该文主要针对声音事件检测中的弱监督学习问题、普通卷积受限于局部感受野、标记数据不足和音频中声音事件的重叠问题展开研究,通过对深度神经网络进行改进,来提高声音事件检测性能。
首先,为了将声音事件从背景场景或噪声中分离出来,提出了基于时频分割网络模型的残差期望最大化注意力网络(Res2Net Expected Maximum Attention Network,Res2EMANet)进行弱监督声音事件检测。针对一般的卷积神经
论文部分内容阅读
近年来,基于弱标签音频数据的弱监督学习已经成为声音事件检测中的热点研究问题。该文主要针对声音事件检测中的弱监督学习问题、普通卷积受限于局部感受野、标记数据不足和音频中声音事件的重叠问题展开研究,通过对深度神经网络进行改进,来提高声音事件检测性能。
首先,为了将声音事件从背景场景或噪声中分离出来,提出了基于时频分割网络模型的残差期望最大化注意力网络(Res2Net Expected Maximum Attention Network,Res2EMANet)进行弱监督声音事件检测。针对一般的卷积神经网络受限于局部感受野,无法充分捕获长距离信息的问题,提出将Res2Net结构与期望最大化注意力机制相结合,可以有效增加感受野范围。最后在不同的背景噪声下进行对比实验,实验表明,提出模型的声音事件检测性能优于基线系统的性能。
其次,为了利用大量的未标记数据来改善性能,提出了改进的平均教师模型用于半监督声音事件检测。训练策略上的改进在于提出将随机加权平均算法用于声音事件检测,可以加快预测速度并且节约成本。模型架构上的改进在于采用了全局加权秩池化层,可以解决传统池化对声音事件的低估和高估的限制。并且采用了SpecAugment数据增强,可有效解决过拟合问题。实验结果表明,改进的平均教师模型优于基线平均教师模型的性能。
最后,针对现实音频剪辑中声音事件的重叠性,提出改进的胶囊循环注意力神经网络(SECapsule Recurrent Attention Neural Network,SECapsRANN)模型进行半监督多音事件检测。提出的SECapsRANN模型融合了SENet和CapsNet的优点,可以将每个单独的声音事件从混合的重叠特征中分离出来。并引入了注意力机制,使网络更关注显著事件。实验表明,提出的模型可有效解决声音事件重叠的问题,提高声音事件检测性能。
其他文献
【内容摘要】高校是党和国家的思想理论阵地和人才培养基地,高校党组织建设是高校党的建设核心环节。建设学习型党组织是党中央建设马克思主义学习型政党的一项基础工程。进一步思考将学习型党组织建设切实贯穿于高校学生思想政治教育工作中,是大学基层党组织以及每一个共产党员必须从思想认识到工作路径以及成效考核等方面迫切需要解决的问题,进而探索推进高校学习型党组织建设和思想政治教育工作内在可持续发展的途径。 【关
【内容摘要】党是社会主义建设的灵魂,是一切经济建设的出发点。加强党风建设是优化党员的先决条件。要充分认识深化作风建设工作的重要性,提升执行力度,为民办实事。在实际工作中自觉践行执政为民的理念,坚持科学发展观,加强党风党纪教育教育。在进行党风建设要注意与时俱进,跟进时代的步伐,同时还要加强求实务实的党风建设。在具体的党风建设中注重加强以为民办实事为出发点的党风建设;以解决实际问题为目的的党风建设;以
【内容摘要】以党内和谐促进社会和谐是对党的执政能力建设和先进性建设提出的新课题。深入研究党内和谐问题,对于以改革创新精神全面推进党的建设新的伟大工程,为全面建设小康社会提供坚强有力的思想政治保证和干部人才支撑,具有重大意义。 【关 键 词】和谐建设 特色社会主义 一、加强党内和谐建设的重要性 对拥有8400万党员的中国共产党而言,党内和谐是党内各主体要素之间为实现执政兴国的历史使命而形成的理
单幅图像去雾的目的是从单幅含雾图像中恢复未损坏的内容并恢复成清晰的无雾图像。传统的去雾算法存在去雾不彻底,颜色失真等问题,图像去雾仍然是最具挑战性的反问题之一,受到很多学者的关注。近年来,深度学习可以处理许多图像相关的视觉任务,并且显示出了比较先进的性能。为了提高单幅图像的去雾效果,该文将用深度学习的方法处理该问题,具体研究内容如下:
首先,提出了基于YCbCr融合残差稠密网络的单幅图像去雾算法。该文使用卷积神经网络针对YCbCr色彩空间的亮度通道进行端到端的图像去雾,可简单提取出图像含雾的区域
人脸识别,是基于采集到的人的脸部特征信息进行身份识别的一种生物识别技术,属于人工智能和计算机视觉的一个重要研究方向。目前,传统的人脸识别算法需要经过复杂的计算过程,且最后实现的人脸识别的准确率较低。为了提高人脸识别方法的性能,该文从卷积神经网络的角度来对该问题展开研究和分析,具体研究内容如下:
首先,该文从轻量级网络的角度出发,提出基于深度可分离卷积和注意力机制的轻量级网络人脸识别方法。该方法设计了融合深度可分离卷积和注意力机制的逆残差块,在减少网络参数量的同时加强特征的表示能力。注意力机制能够
逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)成像技术是利用目标与雷达之间的相对运动来形成高分辨率图像。ISAR不仅可以克服雾雪等恶劣天气,同时也可以在夜间无自然光条件下工作,在目标识别、辨别和分类等军事领域发挥着重要的作用。当目标具有简单运动时,通过传统成像算法可以获得高分辨率雷达图像,但是当目标具有复杂运动时,通过传统算法难以重建高质量的图像。基于此,该文提出了基于深度学习的ISAR自聚焦成像算法。具体研究内容如下:
首先,建立ISAR成像几何模
利用稀疏表示理论对图像进行研究主要是针对图像块进行单独编码,块与块之间存在重叠部分,忽视了图像块之间具有一致性的特点。利用卷积稀疏表示,可以将整个图像看做是一个整体,对其进行稀疏编码。基于深度学习思想的多层卷积稀疏编码(MLCSC)模型的多层基追踪问题和多层字典学习问题成为研究热点,但这些问题都是基于傅里叶域的交替方向乘子法(ADMM)的传统基追踪算法,ADMM算法不能容易地扩展到多层情况。针对这些不足,该文对多层卷积稀疏编码模型进行了研究和改进,主要工作内容如下:
首先,在多层快速迭代软阈值算
微表情识别在近几年成为了计算机视觉领域的热点课题,微表情在测谎方面有着重要应用。迄今为止,微表情识别任务还面临着识别率不高、数据集难以收集导致的微表情样本数量不足,以及由于各类微表情诱发难易程度不同导致的样本数量不平衡的挑战。该文从传统特征提取方法入手过渡到使用深度学习的方法提取微表情的特征,具体来说,主要贡献如下:
首先针对微表情总是发生在局部的问题,对经典的来自三个正交平面的局部二值模式(Local Binary Patterns from Three Orthogonal Planes,L
图像检索在图像理解和计算机视觉任务中是一个具有挑战性的课题。在图像检索中存在“语义鸿沟”的问题,即计算机通过提取图像特征所理解的图像语义与人所感知到的图像语义之间存在差距。而且在大规模图像检索中如何实现快速检索成为了待解决的难题。该文充分利用图像语义信息来解决图像检索中语义鸿沟的问题,并且结合哈希算法来实现大规模图像数据集的快速检索。
首先,该文研究了一种基于图像视觉信息和语义信息的图像检索算法。该算法利用图像特征结合哈希编码来描述图像视觉特征,并且利用词向量生成模型将图像语义词转换为词向量来描
同轴数字全息技术是利用光电传感器(Charge-coupled device,CCD)记录干涉频谱,再通过计算机模拟光学衍射过程来实现物体的再现。由于同轴全息物光与参考光同路,导致再现过程中出现共轭像与原始像叠加。该文主要围绕基于深度学习的同轴数字全息共轭像去除方法进行研究,具体研究内容如下:
首先,为学习通道之间的相互依赖性进行建模来自适应地重新缩放每个通道的特征,提出了一种卷积通道注意力网络,在网络的卷积层后面加入通道注意力机制,可以对卷积层输出的通道特征引起特定的关注,更专注于有用的特征,