基于多模态特征融合的音乐情感识别及其应用研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:wangzhuo2009ny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和数字音频技术的发展,大量的音乐被存储在网络音乐数据库中,音乐情感识别(Music Emotion Recognition,MER)在视频配乐与音乐信息检索(Music Information Retrieval,MIR)中都有重要意义,与此相关的研究也不断增加。不过现有的音乐情感识别模型和提取音乐特征的技术都遇到了瓶颈,传统的分类模型难以提取音乐深层特征、准确性较差、不同类型的音乐特征泛化能力较差且不能适应不同数据集。追溯音乐情感识别的发展历程,随着深度学习技术的不断发展,也逐渐将其引入到了音乐情感识别的领域。国内外已经对基于不同情感空间的情感识别技术取得了突破。本文对过去提出的方法进行深入研究与对比,将多模态的音乐情感特征融合并结合深度学习在基于两种情感空间(连续情感和离散情感)上进行音乐情感识别,主要创新点和工作如下:(1)对于连续情感空间进行情感的回归预测,针对以往模型的优缺点,提出了CLDNN_BILSTM模型,其中改进后的CLDNN作为特征的滤波通道,将MFCC特征和GTF特征分别作为两个相同架构的CLDNN滤波器的输入,对两者输出进行加权融合,之后通过双向长短时记忆网络(BILSTM)提取音乐中正向和逆向的时序信息,分别得到音乐的Valence值和Arousal值的回归预测值。多组特征组合和模型对比实验表明,提出的方法对Valence值和Arousal值的预测准确度都有所提高。(2)对于离散情感空间进行情感的分类识别,受到Word2Vec的启发,提出了Chord2Vec的方法和BILSTM_BLS模型,提取音乐的和弦内容与时间间隔,通过固定的节拍将其划分为和弦信息,将和弦信息训练后得到的和弦向量作为音乐的文本特征;添加了残差相位(RP)与MFCC特征组成MF_RP特征,和GTF特征分别经过滤波通道后与和弦向量进行加权融合并输入到BILSTM,最后通过BLS对BILSTM的特征节点增强后输出情感类别。在不同的数据集上进行多组对比实验,结果表明提出的特征融合方法和BILSTM_BLS模型的组合,在一定程度上使分类准确率提高了2.4%、精准率提高了1.7%和召回率提高了4.6%。(3)本文基于PyQt5设计实现了两层C/S结构的智能音乐系统(SMS),其UI界面采用了简洁的设计风格与多样化的布局安排,并将BILSTM_BLS模型嵌入到系统中。系统主要提供了检索模块、功能模块和管理模块,除了音乐的播放与切换功能,用户可以根据自己的需求输入关键词进行音乐检索,创建管理自己的歌单和导出音乐。系统能自动识别用户导入音乐的情感,并提供了音乐分析与可视化的工具,SMS基本满足用户对音乐播放、歌单管理、音乐检索和陌生音乐进行情感分类的功能需求。
其他文献
随着我国高等教育不断普及,高校招生规模持续扩大,学生和家长对高等教育消费质量的需求不断提高,以及京津冀地区学前教育行业对优秀幼师人才的迫切需要,如何提高学前教育专业人才培养质量已经成为高等教育发展中的热门话题。高等教育的社会职能是培养人才,目前行业对专科毕业高素质幼师的迫切需求,推动师范类高专院校不断与时俱进,改进人才培养模式、建设一流的学前教育专业,输出社会需要的新型高素质幼师。在该背景下,通过
学位
学位
学位
学位
学位
<正>3月5日,十四届全国人大一次会议在北京开幕,2023年度《政府工作报告》发布,透露了如下重要信号!一、经济增长目标确定为“5%左右”政府工作报告指出,今年发展主要预期目标是:国内生产总值增长5%左右;城镇新增就业1200万人左右,城镇调查失业率5.5%左右;居民消费价格涨幅3%左右;居民收入增长与经济增长基本同步;进出口促稳提质,国际收支基本平衡;粮食产量保持在1.3万亿斤以上等。
期刊
学位
学位
学位
<正>建筑装饰设计是基于美学原理基础对建筑形体与内部空间进行美学处理的艺术设计,其通过对建筑界面内视觉元素进行重组与变形,有助于打造舒适且具有视觉美感的建筑空间。由此可见,建筑装饰设计与建筑空间存在一定的关联性,应当从建筑空间场地原有条件与空间使用功能进行全面考虑,进而构建个性化和现代化的建筑空间。
期刊