论文部分内容阅读
随着人工智能和数字音频技术的发展,大量的音乐被存储在网络音乐数据库中,音乐情感识别(Music Emotion Recognition,MER)在视频配乐与音乐信息检索(Music Information Retrieval,MIR)中都有重要意义,与此相关的研究也不断增加。不过现有的音乐情感识别模型和提取音乐特征的技术都遇到了瓶颈,传统的分类模型难以提取音乐深层特征、准确性较差、不同类型的音乐特征泛化能力较差且不能适应不同数据集。追溯音乐情感识别的发展历程,随着深度学习技术的不断发展,也逐渐将其引入到了音乐情感识别的领域。国内外已经对基于不同情感空间的情感识别技术取得了突破。本文对过去提出的方法进行深入研究与对比,将多模态的音乐情感特征融合并结合深度学习在基于两种情感空间(连续情感和离散情感)上进行音乐情感识别,主要创新点和工作如下:(1)对于连续情感空间进行情感的回归预测,针对以往模型的优缺点,提出了CLDNN_BILSTM模型,其中改进后的CLDNN作为特征的滤波通道,将MFCC特征和GTF特征分别作为两个相同架构的CLDNN滤波器的输入,对两者输出进行加权融合,之后通过双向长短时记忆网络(BILSTM)提取音乐中正向和逆向的时序信息,分别得到音乐的Valence值和Arousal值的回归预测值。多组特征组合和模型对比实验表明,提出的方法对Valence值和Arousal值的预测准确度都有所提高。(2)对于离散情感空间进行情感的分类识别,受到Word2Vec的启发,提出了Chord2Vec的方法和BILSTM_BLS模型,提取音乐的和弦内容与时间间隔,通过固定的节拍将其划分为和弦信息,将和弦信息训练后得到的和弦向量作为音乐的文本特征;添加了残差相位(RP)与MFCC特征组成MF_RP特征,和GTF特征分别经过滤波通道后与和弦向量进行加权融合并输入到BILSTM,最后通过BLS对BILSTM的特征节点增强后输出情感类别。在不同的数据集上进行多组对比实验,结果表明提出的特征融合方法和BILSTM_BLS模型的组合,在一定程度上使分类准确率提高了2.4%、精准率提高了1.7%和召回率提高了4.6%。(3)本文基于PyQt5设计实现了两层C/S结构的智能音乐系统(SMS),其UI界面采用了简洁的设计风格与多样化的布局安排,并将BILSTM_BLS模型嵌入到系统中。系统主要提供了检索模块、功能模块和管理模块,除了音乐的播放与切换功能,用户可以根据自己的需求输入关键词进行音乐检索,创建管理自己的歌单和导出音乐。系统能自动识别用户导入音乐的情感,并提供了音乐分析与可视化的工具,SMS基本满足用户对音乐播放、歌单管理、音乐检索和陌生音乐进行情感分类的功能需求。