基于卷积神经网络的音频分类算法的研究与应用

来源 :扬州大学 | 被引量 : 0次 | 上传用户:yubil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频分类问题一直是研究的热点和难点,解决这个难点的一个有效的方法就是卷积神经网络,但是大多数优秀的卷积神经网络都是应用于图像任务,将应用在图像任务中的模型直接迁移到音频分类任务中性能未能达到预期,因此针对音频数据的特点进行模型的设计成为提升音频分类性能的首要任务。使用更加成熟的图像领域中的模型是合理的,但是图像任务中的模型都是应用于图像任务或者是基于图像数据集训练且没有针对音频数据的特点设计的,因此存在一定的问题:1.音频数据包含了图像数据所没有的时间域和频率域,图像模式识别任务设计的模型无法正确地捕获音频数据的特征。2.在对语音和音频数据进行分离时,对于音频的频谱图所提取的特征不足导致分类性能不高。为了解决上述的问题,本文着重研究了基于卷积神经网络的音频分类算法,并对其进行了一些改进,主要的研究工作和成果如下:(1)针对图像任务的模型无法有效提取音频梅尔频谱图特征的问题,提出了基于卷积神经网络的时频域双向音频分类算法。在原始的音频分类算法中,由于研究者们使用了用于图像任务中的模型,图像任务中的模型是针对图像数据设计的,而音频数据与图像数据不同,从而导致了该模型无法有效地提取音频特征,造成了算法的性能瓶颈。为了克服这个问题,本算法设计了一个有监督的音色模块和一个有监督的时间模块,这两个模块分别关注音频梅尔频谱图的时间轴和频率轴,达到了充分提取音频特征的目的。另外,我们还添加了注意力模块,关注特征矩阵的信道信息。最终,我们计算该网络的损失并反馈到监督音色模块、监督时间模块和注意力模块中进行更新。我们将算法应用到音乐数据集GTZAN和Dortmund、舞蹈音乐数据集Ballroom、扩展的舞蹈音乐数据集ExtendBallroom、环境声音数据集UrbanSound8K上,实验结果表明了本算法可以有效地提取音频频谱图的特征,分类准确率较高。(2)针对仅使用频谱图的极大峰值轨迹特征无法有效表示频谱图特征的问题,提出了基于频谱图极大极小峰谷轨迹的音频分类算法。基于频谱图极大峰值轨迹的音频分类算法虽然有效的关注了音频由高峰回落的瞬间,但仅使用极大峰值轨迹无法有效地关注整个音频的走向,因此我们增加了频谱图的极小值谷值轨迹,将梅尔频谱图的极大峰值特征拓展为梅尔频谱图的极大极小峰谷特征。使用峰值轨迹算法计算出峰值轨迹后,在计算极大峰值轨迹的基础上,计算了极小峰谷轨迹,连接成为最终的特征矩阵,然后将特征矩阵输入模型得到分类结果。我们将该算法应用到GTZAN Music/Speech collection、Scheirer-Slaney Music-Speech Corpus、MUSAN 等语音音乐混合数据集上,实验结果表明本算法拥有较高的分类准确率。(3)在前面两个工作的基础上,我们针对音频识别和音乐分类问题,以我们提出的两个算法为核心,设计并实现了基于卷积神经网络的音频分类系统。该系统使用了上述算法中的最佳模型参数。在本系统中,用户可以上传本地音频到系统内存,然后系统对内存中的音频文件进行特征提取和归一化,得到特征矩阵。之后,用户调用系统的音频分类模块对音频进行分类。该系统首先调用基于频谱图极大极小峰谷轨迹的音频分类算法,来对音频进行音乐识别,识别出音频中的音乐文件;之后,系统调用基于卷积神经网络的时频域双向音频分类算法来对音乐文件进行流派分类。该系统结合了我们提出的两种音频分类算法,实现了对音频数据的分类功能。
其他文献
《最蓝的眼睛》是诺贝尔奖得主托尼·莫里森的处女作,小说讲述了黑人小女孩佩科拉的悲惨命运。在人生的道路上,原生家庭对个人的影响不可忽视。莫里森曾坦言,佩科拉这一案例的极端性很大程度上源于一个伤残并制造伤残的家庭。本文利用鲍文家庭系统理论解读佩科拉的悲惨遭遇,旨在呼吁广大读者对原生家庭的影响予以重视。
<正>江西四周多山,山地往往是省际的界山,这界山往往是崇山峻岭,但不管山有多高、路有多崎岖,均挡不住山两边人们的交往和交流。在这茂林修竹之中,往往都有出省通道。如今,在江西境内还保存着多条数百年甚至上千年的古驿道。而最有名的,是梅关古道、徽饶古道、广丰古道和湘赣古道。
期刊
随着我国资本市场的迅猛发展,社会各方对审计需求日益增长,我国注册会计师和会计师事务所肩负的信息鉴证责任日益重大。然而,国内外爆发的许多财务舞弊及审计失败的案例,使资本市场秩序及投资者利益受到严重损害,各国因此都努力提升监管水平,主要是通过行政处罚的手段。尽管如此,在强力监管和督查下仍然出现大量审计违法违规行为,证监会监管手段产生的效果引发学界深思。据此,本文选取多次受到行政处罚的大华会计师事务所为
近年来,Pickering乳液因其易于制备和强稳定性的特点引起了人们的广泛关注。与经典乳液不同,在Pickering乳液中,位于液体界面处的固体微粒或纳米颗粒被用作稳定剂,而不是表面活性剂,从而增加了液滴的寿命。此外,与由表面活性剂稳固的乳液相比,Pickering乳液具有更高的稳定性、更低的毒性和刺激反应性。因此,它们可以被认为是具有广泛用途的理想成分,如光催化和新材料的制备。此外,纳米颗粒的形
针对多煤层联合开采的瓦斯治理,国内众多矿区根据自身特点进行相应探索。对晋能控股煤业集团有限公司晋城煤炭事业部多煤层联合开采的瓦斯治理技术进行研究,分析了以9#煤层作为首采层的瓦斯治理技术方案。
疾病是形与神相互作用的动态衍变过程,而非单一时点与线性问题。复杂多样的外现症状是疾病的表象,其内在有深刻的系统根源和发展动力。在疾病过程中,身心病变有相同感受途径,并相互承接,形成因果交替的病变规律。以时间点和空间点诊断,还原心理和躯体紊乱的逐步递进过程,是辨证的内容与实质。只考虑单一局部,则难以认识疾病的本质和全貌。
“食品工厂设计”是大学本科院校培养食品类专业人才课程体系中具有非常强的综合性、应用性和实践性意义的专业课之一,旨在培养专业知识扎实、技术手段精良的食品专业人才。文章结合大学本科院校食品类专业尤其是食品科学与工程专业的办学目标,从提升师资队伍、创新教学形式和完善课程考核三个环节来探讨“食品工厂设计”的教学改革。
目的:利用影像数据建立正常肘关节、三联征损伤肘关节模型,包括肱骨、尺骨、桡骨、内外侧韧带复合体、关节软骨等。利用有限元法(Finite Element Method,FEM)研究肘关节内稳定器(Internal Joint Stabilizer of the Elbow,IJS-E)在肘关节冠状突及内侧副韧带前束(anterior bundle of the MCL,a-MCL)损伤时的生物力学作
目的:构建基于技术小组的抗肿瘤药物管理模式,促进医疗机构抗肿瘤药物合理使用。方法:以《抗肿瘤药物临床应用管理办法(试行)》及国家相关药事法规为依据,结合医院肿瘤疾病诊疗与抗肿瘤药物管理需求,建立抗肿瘤药物管理技术小组,并探索其职责与工作内容。结果:基于抗肿瘤药物管理技术小组的模式,医院有效开展了抗肿瘤药物遴选与评估、临时采购申请审批、分级目录制定、专项医嘱点评等工作。结论:基于技术小组的抗肿瘤药物
对某煤矿(9-15)08工作面瓦斯治理进行优化,采用以煤层预抽及高位走向长钻孔抽放瓦斯为主、回风隅角布置管路抽放采空区瓦斯为辅的综合方式,自2020年7月6日生产至今,上隅角瓦斯浓度稳定在0.6%以下,回风流瓦斯浓度稳定在0.5%以下,杜绝了瓦斯超限问题,保障了矿井安全生产。