论文部分内容阅读
歌曲分类是流媒体时代中解决海量歌曲高效管理问题、实现精准的个性化选择和推荐、提升听众的听歌体验的主要手段之一,常见的分类要素包括流派、情感、乐器、语种、主题等。作为人类重要的抒情方式和交流媒介,歌曲携带着丰富的情感信息,近年来出现了基于内容(旋律和曲调)、基于歌词、基于内容和歌词融合特征以及基于社交标签等四种歌曲情感分类方法。但是,由于现代歌曲编曲风格各异以及中文歌词情感表达相对含蓄,这些方法在华语歌曲情感分类过程中表现不佳。针对这种不足,本文综合考虑听者感知情感和听者体验情感,提出了一种基于评论和歌词的华语歌曲情感分类方法,主要工作如下:(1)构建华语歌曲情感分类语料库。通过爬虫技术获取歌词和评论语料,针对歌词和评论语料的不同,设计不同的语料清洗方案,设计对比实验为两种语料选择不同的分词工具,并构造不同的停用词表。采用预训练的BERT语言模型从评论数据中筛选出有效信息,并以统计和实验方法验证评论筛选过程的有效性。(2)提出基于评论和歌词的华语歌曲情感分类方法。该方法在传统基于歌词的情感分类方法的基础上,引入评论这一听者的直观感知情感和体验情感表达要素,利用特征级联早融合法和线性结合晚融合法进行歌词和评论特征融合,并分别采用SVM、KNN、CNN和LSTM四种经典分类算法进行方法实现。(3)通过实验与传统基于歌词的情感分类方法进行分类准确率比对,在SVM、KNN、CNN和LSTM四种分类模型上,本文提出方法的效果均优于基于歌词的歌曲情感分类方法,最佳测试集分类准确率提升3.4%,验证了本文所提方法的有效性。