【摘 要】
:
声场景识别是计算机听觉领域的主要研究方向之一,能够与其他声学识别任务相结合以完善计算机听觉系统,声场景识别中的城市声场景识别是与人们日常生活息息相关的研究方向,在公众场所、智能汽车等诸多现实环境中有着广阔的应用前景。然而现有的声学识别研究主要集中在语音识别、声音事件检测等任务上,对于声场景识别的研究不够充分。论文从以下三点展开研究工作:(1)研究传统识别架构并构建基线架构;(2)优化基线架构中的声
论文部分内容阅读
声场景识别是计算机听觉领域的主要研究方向之一,能够与其他声学识别任务相结合以完善计算机听觉系统,声场景识别中的城市声场景识别是与人们日常生活息息相关的研究方向,在公众场所、智能汽车等诸多现实环境中有着广阔的应用前景。然而现有的声学识别研究主要集中在语音识别、声音事件检测等任务上,对于声场景识别的研究不够充分。论文从以下三点展开研究工作:(1)研究传统识别架构并构建基线架构;(2)优化基线架构中的声学特征提取过程;(3)改进基线架构中的声学特征识别模型。论文研究传统声学特征与传统声学识别模型的性能,从中选出识别率最高的传统架构作为基线架构。研究常用的声学特征包括短时能量谱、短时过零率、线性预测码、线性预测码倒谱系数、短时傅里叶谱、梅尔频谱、梅尔倒谱以及小波变换,仿真并分析特征维度的转换方法。接着研究各种分类模型,包括以一维特征作为输入的SVM,以二维特征作为输入的VGG19、inception V3、ResNet50、DenseNet121,以及以原始波形作为输入的1D-CNN、raw waveform CLDNN、EnvNet。仿真分析以上传统模型以及对应的输入,识别率最高的方案是“ResNet50识别梅尔频谱”,将其作为基线模型进行优化。论文研究用神经网络实现梅尔频谱的提取过程,从而在声学特征有效的前提下通过神经网络进一步优化梅尔频谱。推导一维卷积运算和短时傅里叶谱的关系、二维卷积和梅尔滤波器组的关系并且添加滤波器组幅值系数层调整不同频段的幅值,进而用卷积层实现梅尔频谱提取,构建梅尔频谱提取网络(MFSCNN)。对“MFSCNN+ResNet50”的仿真结果表明MFSCNN比手工提取梅尔频谱识别率高,但仅有滤波器组幅值系数得到了有效训练。接着改进梅尔频谱的提取过程进而改进MFSCNN,具体而言在进行傅里叶变换时采用频率分布符合梅尔频率曲线的正余弦基底,相应的滤波器组变为均匀滤波器组,最后用神经网络实现这种提取方式,该网络称为MFFTNN。对“MFFTNN+ResNet50”的仿真结果表明MFFTNN能够有效训练滤波器组幅值系数、滤波器形状以及频率曲线,识别率比传统方法高3%左右。论文研究神经网络模型中的常用辅助结构包括:多尺度卷积、LSTM以及GRU的门控结构、SENet以及SKNet中的通道控制。论文将多尺度卷积的结构引入残差网络中,得到多尺度残差模型(M-ResNet),“MFFTNN+M-ResNet50”的仿真结果表明多尺度卷积结构无法有效提高模型对声谱图特征的识别率。论文分析门控结构与通道控制的基本方法并将其引入残差单元,堆叠该单元得到通道门控残差网络(CG-ResNet),“MFFTNN+CG-ResNet50”的仿真结果表明该网络的识别率达到95%,比“MFFTNN+ResNet50”高2%左右,比传统识别架构“ResNet50识别梅尔频谱”高5%左右。
其他文献
液体火箭发动机高速涡轮泵轴端机械密封是泵系统重要的功能部件,其防止了发动机燃料和氧化剂的泄漏。然而,受限于液体火箭发动机涡轮泵密封工作是在极端低温高速等工况,其失效机理是十分复杂;因此对此低温、高速、瞬态起动等极端工况下的机械密封进行接触摩擦及磨损机理的研究已成为相关研究的核心方向。本文在针对未来低温推进液体火箭发动机涡轮泵用轴端低温密封系统,拟构建其接触磨损分析模型,开展面向机械密封配副适配选择
水下偏振成像技术以其简单的系统结构、低廉的实现成本在水下清晰化成像领域中显示出巨大的潜力。但现有水下偏振成像技术在场景清晰化成像过程中通常仅关注场景中的线偏振成分,忽略了圆偏振成分对图像清晰化过程的影响。当浑浊水体中目标偏振度与后向散射光偏振度数值相近时,现有的水下偏振成像方法对目标偏振度估计不准确,导致重建图像中低退偏目标存在的区域恢复不出信息。为解决上述问题,本文提出一种基于散射退偏效应的水下
随着科学技术的高速发展,大数据与信息化时代的到来,各行各业对现代通信领域的智能性与拓展性提出了更高的要求,尤其是在航空航天、无人驾驶、工业实时控制等领域需要一个高可靠性、强实时性且能够完成大量数据业务交互的综合性通信网络。时间触发以太网通过在传统以太网的基础上增加时钟同步技术,使得网络关键控制业务可以通过时间触发的方式进行传输,保障关键业务传输的实时性与确定性。本论文结合科研项目“同步确定性网络关
遥感图像在农业、军事、外太空探索、环境监测等诸多领域都有着极为重要的作用。遥感图像目标检测作为遥感图像处理的一个核心分支,受到了众多研究者的重视,具有非常广阔的发展前景。目前基于卷积神经网络的目标检测算法是目标检测领域中最主流的方法。然而由于遥感图像与普通自然图像之间存在着诸多差异,针对于遥感图像的目标检测依然面临着许多挑战。本文围绕遥感图像目标检测展开研究,针对于遥感图像目标检测中的小尺度目标问
随着精确制导武器的不断发展,远程精确打击技术逐渐成为影响战争进程的主导因素,防空预警系统越来越受到各国军工部门的重视。在防空预警系统中,红外成像技术凭借着隐蔽性强、探测距离远、全天候、抗电磁干扰以及机动性强等优势占据着重要地位。但在实际应用场景中,由于探测距离远,红外图像中的目标通常存在着尺寸小、亮度弱、缺乏结构和纹理信息等问题,且成像会受到大气衰减、恶劣天气和噪声等影响,因此,红外小目标极易淹没
霍尔传感器是磁传感器中应用范围最广、成本最低的传感器产品,其具有高隔离度、高稳定性和强耐受力等特点,适用于传感探测、距离衡量、位置跟踪等多设计和生产领域。霍尔传感器现阶段主要的技术研究重点在高精度、大功率和高带宽设计方向上。高带宽线性霍尔传感作为最新的研究热点,受到国内外传感器领域的科研工作人员的关注。现今已经拥有成熟的技术和设计方案,在实现设计目的高带宽快速传感的同时,也具有高线性度、低失调、低
光学的遥感图像目标检测任务目前被广泛地应用在军事侦察、灾害监测以及城市规划的各个方面,是进一步做遥感图像解析等任务的前提和基础。随着近年来传感器技术的不断发展,遥感图像的空间分辨率越来越高,也提供了越来越丰富的细节信息供算法处理,因此遥感图像的目标检测任务变得越来越重要。近年来深度学习的方法在自然图像的分类以及检测任务当中都得到了广泛的应用,研究人员也开始使用深度学习的方法来解决遥感图像目标检测任
量子信息技术是当前各国都重视的新兴前沿技术,会给通信信息安全、复杂计算、传感等领域带来革命性改变。量子密钥分发建立在量子力学理论的基础上,具有无法从信道窃听而不被发觉的安全特性,基于量子密钥分发及一次一密加密体制的量子保密通信可实现通信的无条件安全。在实际的量子通信过程中,量子传输信道特性会影响量子通信的性能,因此需要研究量子信道传输特性。本文主要研究了水下光量子信道的传输特性及量子密钥分发网络。
随着科学技术的快速发展,战场态势变得越来越复杂,战场中所受到的各种威胁不断增加,尤其是中小型无人机的出现,凭借着机身微小、机动性强、适应复杂地形、作战成本小等优势,给现代防空体系带来了巨大的挑战。为了有效应对无人机带来的挑战,本文设计了一套多种装备联合作战的指挥控制系统,该系统可同时接入雷达设备、光电设备以及微波武器等多种装备,并且具有引导、指挥、协调、控制等功能,使装备具备体系化作战能力。指挥控
GaN基HEMT器件是当前最受关注的电力电子器件之一,具有非常广泛的应用前景。为了不断提高HEMT器件在电源开关领域的的工作性能,需要不断优化其结构与制造工艺,从而提高器件击穿电压、提高p-GaN栅耐压、提升输出电流密度等。为此,本文重点从提升耗尽型AlGaN HEMT器件耐压、降低增强型GaN HEMT器件栅漏电、探索大电流ScAlN/GaN HEMT器件等三个方面,分别对GaN基HEMT器件的