面向多信道不均衡数据的声学场景分类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cnzzzbjzbgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音信号在生活中无处不在,人们一直在尝试着合理地将其利用。随着深度学习技术的发展,声音信号处理的能力在不断提高,给人们的生活带来了诸多便利。声学场景分类作为信号处理的新兴研究领域,近年来受到越来越多的关注,其已经被有效应用在情境感知等设备上。在生活中,录音设备的种类多种多样,由于这些设备信道的差异,导致即使在同时同地,它们所录制到的音频数据也可能存在不同。此外,由于多种原因采用不同设备所获得的声音数据量也可能不同,因此存在数据不均衡的问题。信道差异及数据不均衡的影响给声学场景分类任务的研究带来很大的困难。本文重点研究多信道不均衡数据影响下的声学场景分类问题。首先,提出基于FBank特征的卷积网络声学场景分类方法,对所有数据不区分设备地提取FBank声学特征,使用卷积神经网络对特征进行分类,使用交叉熵作为模型的损失函数。该方法作为本文的基线系统。随后,提出基于信道无关嵌入特征的声学场景分类方法。不同设备在同时同地录制所得到的平行数据对包含完全一致的语义信息,而差别仅为信道不同。考虑到从原始音频数据提取的FBank特征中会包含设备的信道信息,其与声学场景无关且会影响模型的分类准确率。因此,在基线系统的模型中,选取最后一层卷积层的输出作为音频数据的嵌入特征,使用均方误差度量平行数据对间嵌入特征的差异,均方误差和交叉熵的加权和作为模型的损失函数。相比于基线系统,该方法的分类准确率在所有设备上均有提高。最后,提出基于迁移学习的多信道声学场景分类方法。对数据量充足的设备信道下的场景进行建模,学习到足够的知识,以得到性能优越的嵌入特征提取网络,以及对嵌入特征的分类网络。将得到的特征提取网络复制后,使用迁移学习方法对数据量少的设备信道下的场景进行训练,以更好地提升模型对数据较少设备信道下的场景分类准确率。训练时并行输入平行数据对,只训练针对少量数据的嵌入特征提取网络,而其他网络参数固定不动,使用均方误差度量平行数据对嵌入特征的差异,使用KL散度度量分类网络对平行数据对嵌入特征预测的概率分布的相似性,均方误差、KL散度、交叉熵三者的加权和作为模型的损失函数。相比于基线系统,该方法明显提升了数据量少的设备信道下的场景分类准确率。
其他文献
大型阵面雷达天线分块自动对接组装技术,是实现雷达天线自动对接组装以及战场高机动架撤与转移,提高雷达系统的战场保障能力的有效手段。混联机构集成了串联机构工作空间大和
由于传统化石燃料煤、石油、天然气等不可再生能源已经日益枯竭和工业化导致水体等环境污染日趋严重,因此,寻求新的能源(例如太阳能、风能、地热能、潮汐能等)已经成为被广泛研
由化石燃料燃烧以及机动车尾气排放的氮氧化物是主要的大气污染物之一。氨选择性催化还原氮氧化物(NH3-SCR)技术被认为是目前去除从柴油车发动机排放的氮氧化物的最为效的技术
现今社会,化石能源过度消耗,环境问题层出不穷。经济结构调整升级迫在眉睫,其中转变传统的生产模式,寻求可替代化石能源的清洁可再生的新能源最为关键。生物质作为一种可再生
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)模型是根据哺乳动物大脑视觉皮层神经细胞受到外界刺激时产生同步脉冲振荡现象而提出的一种数学模型,是目前比较接近真
为了研究生物质热解和生物质催化热解的特性,以及生物质热解产物动力学尺寸与分子筛孔径的择形选择性,本论文进行的实验研究工作如下所述:采用Py-GC/MS技术研究了纤维素和木
电火花线切割加工的优点是通过介质能够切割形状复杂,传统切割难以加工的工件并保证较好的加工质量,是一种优秀的非传统加工方法。近年来水雾介质的应用使得线切割在多次切割
随着经济建设的快速发展,我国城市化进程突飞猛进,也就是在这一城市化不断快速发展的过程中,农村中大量的土地被政府征用,而产生了数量较为庞大的失地农民。城市发展与相关政策制定步调的不一致,以及城乡的二元制结构,使失地农民不能充分享受经济快速发展带来的好处,以致失地农民利益受损,农民在失去土地后,沦为“种地无田、上班无岗、低保无份、创业无钱”的特殊群体。近几年来,温州在城市转型发展的过程中,失地农民利益
随着对储能元件的探索与研发,性能良好的器件也愈发的引起人们的关注。超级电容器因其优异的性能而被人们重新重视起来。多孔碳作为超级电容器电极材料显示出了优异电化学性
金属切削工艺是当前机械制造领域的重要组成部分,被广泛应用于航空航天,交通运输等领域。然而在金属切削过程中会产生大量的金属切屑和废料,造成资源的浪费和环境的污染。所