基于混合卷积神经网络模型的音频场景分类

来源 :内蒙古科技大学 | 被引量 : 1次 | 上传用户:lioutao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频信号包含很多信息内容,通过音频信号处理技术,人们可以更好感知和理解周围的环境,因此该技术已经被广泛应用于监控、助听器设备和智能终端等领域。音频标签数据相比于图像信息数据采集更简单,占用内存更小,记录的音频标签很容易表达出信息内容。随着互联网技术的快速发展,对于音频场景分类算法的应用研究越来越多。音频场景分类是通过对音频标签信息进行分析,理解音频语义特证,从而达到识别和理解周围环境内容的目的。音频场景分类的系统设计包括特征提取和分类器模型构建两部分。采用的特征提取方式主要有梅尔声谱图和梅尔频率倒谱系数。在相同卷积神经网络结构和模型参数下,分别采用这两种特征进行提取和分类实验。实验结果显示梅尔频率倒谱系数可以更好展现不同类别音频信号本质特征的差异,并且每类音频场景标签的精确率结果都比梅尔声谱图要高。卷积神经网络通过对音频信号的图像特征进行非线性特征映射,通过有效训练来提高模型的性能。由于单一的卷积神经网络分类容易产生过拟合等问题,所以需要对系统神经网络算法进行优化实验,主要引进了长短时记忆网络和极度梯度提升算法。考虑到音频信号具有时序性,在卷积神经网络提取抽象特征之后引入了长短时记忆网络来处理音频信号时间轴上的音频信息,提出了卷积神经网络和长短时记忆网络混合模型,对声谱图进行训练,由最后一层softmax分类器进行分类。而上述神经网络模型分类器直接使用softmax只是对音频信号进行预测,没有对提取的特征进行训练,直接输出分类结果,存在一定的不足,提出了卷积神经网络和极度梯度提升算法混合模型,通过添加极度梯度提升算法模型,代替softmax分类器对特征再次进行训练,预测音频场景信号的分类准确率。极度梯度提升算法是通过树模型对损失函数进行迭代,并优化目标函数,由叶节点输出分类结果。系统模型通过在包含10类的城市音频数据集上进行训练和测试,实验使用准确率、精确率、召回率和F1-Score作为衡量音频场景分类的性能评价指标。实验结果显示基于卷积神经网络和极度梯度提升算法的混合模型分类结果的准确率最高的,并且每类音频场景实验得到的精确率、召回率和F1-Score比其它算法模型效果好,验证了本文所采用的混合模型可以更好的处理音频场景分类任务。
其他文献
锌铝尖晶石系新型透明陶瓷不仅具有较好的机械性能和优异的光学性能,而且兼具优良的热学以及介电性能,是典型的结构功能一体化材料,在抗热震窗口、高温光学窗口和光电材料方面具有潜在的应用前景。目前的研究均集中在化学计量锌铝尖晶石,对富铝锌尖晶石透明陶瓷的研究尚未开展。本文通过凝胶注模成型工艺制备出致密度高、结构均匀且强度较高的陶瓷坯体,再结合无压及热等静压烧结制备出具有较好性能锌铝尖晶石系透明陶瓷,同时研
从关系伦理的视角观照当今心理治疗领域几种主要的治疗范式,可以看到,产生于现代背景的治疗范式是利用治疗家本身的权威,按照"绝对正确"的行为范本,去改造与之不符的个体,来
当今社会经济的迅速发展以及我国综合国力的不断增强,为企业走出国门走向世界奠定了良好的基础。随着国外承建工程的日益增多,企业为了最大限度地降低施工成本促进企业经济利
为解决化工工业中低温余热的有效利用问题,有机朗肯循环(ORC)耦合蒸汽压缩制冷循环(VCR)系统,因其可将低温余热的热能间接转化为冷能,在低温余热利用领域受到广泛关注。本文以筛选优质工质及优化系统结构为目标,建立低温余热驱动的有机朗肯循环耦合蒸汽压缩制冷循环(ORC-VCR)系统的热力学模型,在一定的操作条件下,对10种不同种类的纯工质(R245fa、R227ea、R600、R600a、R1234
玉米作为肉牛的主要能量饲料,其消化利用率直接影响肉牛的生产性能和肉质。未经加工处理的玉米种皮、淀粉颗粒外的蛋白质脂膜以及颗粒内淀粉分子的有序排列,会影响微生物和酶与
报纸
“九五”至“十二五”期间在滇池流域构建起了前端高效收集截留系统、中端环湖截污干渠输送调蓄系统、末端污水处理系统组成的环湖截污治污体系,对削减滇池面源污染负荷、改
目的探讨Mayer-Rokitansky-Küster-Hauser(MRKH)综合征的MRI表现特点。方法回顾性分析23例MRKH综合征患者的临床资料和MRI影像表现。结果 23例均有原发性闭经,5例伴有周期性
目的:观察头针、体针、头体针联合治疗中风的临床疗效与差异。方法:将临床收集的230例患者随机分为头针组(112例)、体针组(51例)、头体针组(67例)。头针组采取单纯头皮针:半
AMP激活的蛋白激酶(AMPK)作为一种重要的能量感受因子对有机体从恶劣环境中存活至关重要。AMPK是个由三个亚基组成的异源三聚体,其中α亚基是催化亚基,β和γ是调节亚基。AMP
混沌现象广泛存在于自然界的各个领域:如化学、非线性光学、电子振荡电路以及流体力学等。大多数非线性系统可以通过建模并设置恰当的参数来模拟混沌吸引子的产生,而且吸引子