基于残差网络与数据增强的环境声音分类

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:uugoooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音在人们与环境的交互中起着至关重要的作用,环境声音分类由于其在道路监控系统、智能家居与情感感知等领域的应用而成为一个重要的研究课题。近年来,随着深度学习的兴起与发展,基于深度学习的方法被广泛用于环境声音分类任务,为环境声音分类的研究奠定了技术基础。但当前用于环境声音分类任务的卷积神经网络存在难以扩展模型深度问题,此外,环境声音分类任务的标记数据相对稀缺也是卷积神经网络难以在较简单模型上改进的重要原因,虽然近年来已经发布了一些新的数据集,但它们仍然比可供研究的数据集要小得多,制约了环境声音分类技术的发展。为解决上述问题,本文通过研究残差网络与数据增强,提出其优化方案并实现高准确率的环境声音分类。本文的主要内容如下:1.提出了基于残差网络与数据增强的环境声音分类方法。首先,使用时间拉伸法和音高扭曲法对声音数据样本进行扩充;然后,基于环境声音的特点,对数据样本进行分帧处理,并提取其梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC),以及它们的差分作为特征参数;最后,将提取的特征送入本文构建的残差网络模型Env Res Net进行分类。与多种环境声音分类算法进行实验对比,结果表明,基于残差网络与数据增强的方法可以取得较好的分类效果。2.提出了基于多级残差网络的环境声音分类方法。首先,通过分析残差网络和多级残差网络的特点,搭建深度多级残差网络Mul-Env Res Net,并选择较优的模型策略,缓解梯度消失问题,优化Mul-Env Res Net,采用动量梯度下降法加速训练过程,节省训练时间;然后,将环境声音信号的MFCC以及它们的差分作为Mul-Env Res Net的输入,用一个卷积层来提取局部特征,接着,利用多级残差块提取更深层次的信息,再进入池化层,池化的目的是保留主要的特征,同时减少参数和计算量,提高模型泛化能力;最后,通过全连接层进入Softmax层对结果进行分类。所提方法相较于其他用于环境声音分类任务的卷积神经网络模型大大加深了网络结构的层数,从而能够提取更深层次的重要特征,提高分类准确率。实验结果表明,该方法对环境声音具有较好的分类效果。
其他文献
随着人工智能技术的不断发展,卷积神经网络已经广泛地用于解决各种复杂问题,并在学术界和工业界引起了大量的关注。在物联网技术的推动下,卷积神经网络也开始应用于各种嵌入式和移动设备,用来实现各种智能功能。在这些应用场景中,FPGA特别适合用来加速卷积神经网络的计算,因为其具有高性能、低时延、低功耗以及开发周期短等优点。为了解决卷积神经网络大量的参数和计算量所带来的限制,同时满足多样化的卷积神经网络结构,
随着电力系统中风电渗透率的逐渐提高,给社会带来巨大经济社会效益的同时,风电出力的随机性、波动性等不确定性也给电力系统安全稳定运行带来了极大的冲击。尤其是随着极端气候屡现,风电爬坡事件频发,易引起电力系统功率不平衡问题,造成电压、频率偏移甚至越限,严重威胁电力系统的安全稳定运行。因此,提高风电爬坡预测与识别准确度,定量评估风电爬坡出力不确定性,提出有效的风电爬坡事件平抑方法,对改善含高比例风电的电力
在大电网逐步迈向智能化、数字化、信息化的同时,智慧校园的规划与建设也持续深入。作为关键一环的电能,其分配的合理性对智慧校园的规划与建设进程的完善起着至关重要的作用。由于电力负荷预测能为电能分配提供有效的指导方案,故本文以智慧校园为工程应用背景,以提高其短期电力负荷预测精度为研究目的,首先提出了一种基于PCAG-KM的校园典型场景分析方法;其次,提出了一种基于快照机制的短期电力负荷组合预测方法;最后
纳米银(Ag-NPs)由于优异的抗菌性能和独特的物理化学性质被广泛应用于各个生产生活领域,其不可避免地会进入到环境中从而对生物体造成潜在危害。Ag-NPs进入环境后会氧化溶解从而释放出Ag+或还原转化成相应的活性较低的硫化物Ag2S-NPs等。Ag-NPs和Ag2S-NPs的生物效应高度依赖于Ag的形态。微生物胞外聚合物(EPS)作为环境中广泛存在的天然有机质,会显著地影响纳米颗粒在环境中的转化行
智能制造是“工业4.0”时代最重要的行业之一,也是“中国制造2025”计划的重要支撑技术领域。人工智能的蓬勃发展赋予了智慧工厂新的能量。在COVID-19疫情给人类生活生产带来严重影响的时期,使用机器人去代替人工完成各种复杂的劳动力密集型工作有着更胜以往的意义。发动机缸盖是汽车的关键零部件之一,目前汽车发动机缸盖生产下线多采用人工分拣搬运的方式,效率较低,对于安全生产也具有一定的隐患。面对复杂的实
随着科学技术的飞速发展,永磁同步电机(PMSM)由于其拥有的优点在许多工程应用场所得到广泛应用,比如其运行稳定度高,体积质量小,可用性强,简单的构造,功率小等等,尤其在航天工程、制药装备、工程器械乃至社会中的每个角落都扮演者重要的角色。随着控制理论和控制技术的快速演变与发展,为了满足人们在生活工作中的需要,需要具有更好性能的永磁同步电机解决工程应用中存在的问题,往往一个准确的数学模型影响着该控制系
近年来,多智能体系统已经成为多个学科的研究热点并且在军事、工业生产和航空航天等领域中都有着广泛的应用。值得注意的是,现阶段的多智能体系统跟踪一致性控制一般建立在所有智能体结构相同且动力学模型已知的情况下。因此,模型未知且拓扑结构不确定的非线性多智能体系统的跟踪一致性控制有待于进一步深入研究。本文分层递进地提出了两种新型的数据驱动控制方法,以实现多智能体系统的跟踪一致性控制。具体研究工作如下:(1)
胶囊网络以向量的形式传递信息,这可以保留更多诸如空间位置等图像信息,并且能够以特征相应的强度来表示图像。层与层之间采用动态路由算法来取代传统卷积神经网络中的池化。本文从网络模型和动态路由算法等方面进行研究,与卷积神经网络中的优秀技术相结合,进一步提高胶囊网络的性能,具体研究内容如下:1)使用一致性参数网络降低胶囊网络的计算复杂度,同时改进了动态路由算法,减少了过拟合。通过使表示同一位置的不同胶囊的
忆阻器是继电阻、电容、电感之后的第四种电路基本元件,建立了磁通与电荷之间的关系。经过研究发现忆阻器具有功耗低、纳米尺寸、便于集成和非易失性等特点,基于忆阻器的非线性电路可以产生非常丰富且复杂的动力学行为。同时,由于忆阻器所特有的非线性和记忆特性,使得其在很多领域都有潜在的应用价值。目前对于混沌动力学的研究大多是基于光滑系统进行的。而近年来,人们发现,在开关电路中存在着丰富的非线性现象。本文将忆阻器
光催化技术是解决当今社会能源匮乏和生态环境恶化的重要手段之一。自1972年发现半导体光催化效应以来,半导体光催化材料由于其良好的应用前景得到了广泛的关注。其中TiO2因其稳定的化学性质,较强的氧化能力和高效的光催化活性而成为一种理想的环境友好型材料。然而,TiO2的带隙较大,窄吸收光谱以及光生载流子不稳定、极易复合等问题严重制约着其规模化的发展与应用。因此,为了提高TiO2的光催化性能可通过调控、