论文部分内容阅读
近20年来,随着计算机科学技术的快速发展,人工智能已经成为计算机技术中最热点的领域。情感计算是人工智能科学的一个重要组成部分,通过情感计算,让机器能够学习并且模拟人类的情感已经成为人工智能发展的一个重要目标。语音情感是情感计算的一个重要研究方向,而音乐是人类生活中表达情感的重要方式,是最能够让人受到情感影响的语音表现形式,音乐中蕴含着大量丰富的情感信息。研究发现,音乐的情感信息不仅仅包含在歌曲的旋律中,歌曲的歌词中也蕴含着情感信息,歌曲的旋律和歌词的文本结合才能表现出一首歌曲完整的情感特性。针对歌曲情感的分类,本文提出一种基于多模态的两次融合的深度学习情感分析方法,对音乐进行分析时将音乐分成歌曲音频和歌词文本两个方面,分别提取歌曲音频的两种不同音频特征MFCC与MIDI,以及歌词的文本特征。融合歌曲音频的MFCC和MIDI两种不同特征后,再将融合后歌曲音频融合特征和歌词文本特征进行第二次融合,使用这样两次融合的方法来产生歌曲的融合情感特征。通过这种两次融合的方法获得歌曲的融合情感特征后,对歌曲融合情感特征使用限制波尔兹曼机(RBM)和卷积神经网络(CNNs)进行优化和分类,并在歌曲情感语料库上进行训练和测试。经过多组实验表明,基于多模态融合深度学习模型获得音乐情感特征,进而进行情感分类,能够更准确的判断音乐的情感,更加深层次的体现出音乐蕴含的情感信息和情感倾向。