基于CRNN模型的弱标签城市交通工具声识别检测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wendiii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现智慧城市、智能交通等关键技术,对城市中交通工具发出的声音进行识别检测变得日益重要。目前大多数声音识别检测的研究都是基于强标签数据集,但获取强标签音频数据比较困难,所以我们需要研究如何在弱标签数据集下对城市交通工具声进行识别检测。论文从AudioSet数据库中选取了一个包含17种城市交通工具声的弱标签数据集进行研究,该数据集中每一类声音的样本数分布不平衡,而且数据集中的音频样本存在弱标签性、多源性的问题。论文将围绕这三个问题,就如何在弱标签数据集下提升对城市交通工具声的识别检测精度展开研究。数据集中声音的弱标签性,使得传统的声音识别检测模型不再适用。论文使用声音的对数梅尔频谱系数(MFSC)组成的时频图作为特征,并且针对研究任务的特点搭建了一种卷积循环神经网络(CRNN)作为声音识别检测系统的基线模型,该模型由卷积神经网络(CNN)和循环神经网络(RNN)组合而成,可以更充分地利用声音特征,适用于弱标签声音的识别检测任务。针对数据集中每一类声音样本分布不平衡的问题,论文使用了一种按比例选取训练批次数据的方法,该方法可以使模型充分学习到每一类声音的特征,缓解了模型训练时的有偏性问题,大幅提升了模型对城市交通工具声识别检测的精度。对于声音的多源性问题,论文使用了重要性加权识别方法和多尺度注意力融合方法。重要性加权识别方法将模型对声音的检测结果根据重要程度进行加权融合,得到最终识别结果,该方法可以更多地利用有效声音所在帧的检测结果,忽略噪声帧的检测结果。多尺度注意力融合对模型中CNN部分加入了注意力门控机制和多尺度卷积融合,注意力门控机制可以控制模型学习声音中重要的特征并且忽略不重要的特征,使模型更关注有效声音的特征而忽略噪声特征。多尺度卷积融合可以使模型提取到多个维度的声音特征并且进行融合,得到更加丰富的特征。重要性加权识别方法和多尺度注意力融合方法均可提升模型对城市交通工具声识别检测的精度。为了进一步提升模型性能,论文在CRNN模型的RNN部分使用了一种多滑窗分帧法。该方法通过设置不同长度的滑窗对CNN的输出进行分割,将分割后的特征输入进多个RNN分别进行识别检测,最后将多个识别检测结果进行融合。该方法充分考虑到了每一种声音在不同帧长维度下的特征,使模型学习到更加丰富的特征,有效提升了模型对声音识别检测的精度。论文最后还使用了两种多模型融合的方法对模型进行融合,该融合方法也可以大幅提高模型对城市交通工具声识别检测的精度。通过仿真实验可以发现,在弱标签城市交通工具声数据集下,论文使用的CRNN基线模型相比于传统的声音识别检测模型对声音的识别检测精度更高,并且论文使用的重要性加权识别方法、按比例选取训练批次数据方法、多尺度注意力融合方法、多滑窗分帧法和多模型融合方法均可提升模型对声音识别检测的精度。论文最终使用的融合模型对测试集声音识别结果的F1值为57.5%;检测结果的ER值为0.627,F1值为45.1%。
其他文献
目的:探讨禁用杀鼠剂急性中毒的护理措施,以及有效地控制痉挛对患者病情的影响.方法:选择景德镇市三所综合性医院1999年度按急性中毒常规护理救治的32例患者为对照组,另用二
金属氧化物半导体因其稳定性好、环境友好及廉价等优点被广泛研究。ZnO作为TiO2的一种优良替代物半导体,有着类似的禁带宽度(~3.37eV),比TiO2更高的电子迁移率,更好的结晶性和
目的探讨儿童肝豆状核变性(wilsondisease,WD)的临床特点和治疗转归。方法对63例肝豆状核变性患儿的临床特征和血清铜蓝蛋白、血清铜、24h尿铜、青霉胺驱铜试验、角膜色素环(K—F
“互文”是古汉语中常见的一种修辞方法。掌握了这种修辞考法,对于词义解释和古文翻译都大有裨益。
赵志刚大概有一年多没有参加梅花奖艺术团的演出了,这次他参加了艺术团的江西行,好像变了一个人。以前,他是团里最活跃的分子之一,插科打诨,摆怪照相,时不时地讲几个段子,无
二宾语残缺实例评改(一)基本类型语句缺失宾语1.单句中缺失宾语(1)常规句举例【例1】×月×日仅××市就发生三起较严重的煤气中毒。“发生”没有相搭配的宾语,“中毒”后宜
公共环境是城市雕塑存在之根本,而城市雕塑又使公共环境的发展趋向美化、和谐。城市雕塑在从设计到安装设置的过程中要充分考虑到公共环境所带来的影响因素,不但要与当地城市
建立了陡峭地形和光滑地形下电渡的传播模型,并用matlab进行模拟仿真,得到了不同地形下传播因子的伪彩图。然后对比了光滑地形和陡峭地形的传播损耗结果,光滑地形和平静海面的传
基于黄土高原区大量大田土壤入渗实测资料,借助BP神经网络模型建立了基于Philip土壤入渗模型参数的预报模型,并分别讨论了BP神经网络土壤水分入渗参数稳渗率预报模型、土壤水
[目的/意义]文章综合探讨了组织内和组织间知识转移过程及关键影响因素,整合不同层次知识转移研究,并基于能力视角建立多层次知识转移模型。[方法/过程]界定了知识内涵,阐述