论文部分内容阅读
近年来,自然语言处理领域发展迅速,深度神经网络得到了广泛的应用。同时,在互联网、人工智能等技术蓬勃发展的大背景下,各大手机音乐软件为了实现功能多样性和丰富用户的体验,歌曲的智能搜索和推荐功能逐渐兴起并普及,对于歌词的情感分析是实现这些功能的关键技术。在一首歌曲中,旋律与歌词相辅相成,它们共同传达着歌曲所表现的情感与内涵。其中,歌词不仅包含着语义信息,还可以作为音频信号的旋律、结构和节奏特性的载体,因此,歌词在很大程度上反映了一首歌曲的情感内涵,对于歌词的情感分析是极具研究价值的。然而,目前歌词情感分析的研究存在开源数据集匮乏、因语法结构独特导致的歌词语义提取难度大等问题。为了解决上述问题,本文针对不同类型的歌词文本数据,展开了对于歌词情感分析的研究,主要工作和创新点如下:1.针对网络上关于歌词情感分析数据较为匮乏的问题,本文构建了一个可用于歌词情感分析的数据集。该数据集从15000首主流中文歌曲中提取歌词,将这些歌词分为“积极(Positive)”和“消极(Negative)”两种情感类别,每一种情感类别又分为强烈、中等和微弱三种程度类别,每个程度类别包含约2000句歌词,每句歌词字数在30至100之间。2.针对传统LSTM架构在处理长序列信息时会存在一定的偏差的问题,本文提出了一种基于Bi-DLSTM网络的情感分析模型。这种变体LSTM网络包含一种扩张跳跃连接层,不仅可以在信息传递跨度变大的情况下实现并行计算,而且更有利于长序列信息的保留。在与多种基线情感分析模型在NLPCC2013、NLPCC2014情感数据集、微博情感语料库以及自建歌词数据集的对比实验中,本文模型在准确率、精确率、召回率以及1F值中均优于对比模型,体现了模型的有效性。3.针对文本情感分析任务中通常会忽略类别之间潜在的依赖关系这一问题,本文提出了一种多模块注意力机制的情感分析模型。在此模型中,Bi-LSTM用于建模歌词的文本特征,在以词向量和相对位置向量为网络层的输入的基础上,将歌词-情感类别匹配模块引入注意力单元中,以更准确地捕获文本的情感类型。同时本文模型引入了类别依赖模块,提取不同情感层级之间的依赖关系,从上到下逐步捕捉每个情感层级之间的关联,从而达到提高分类准确率的目标。对该模型和多种基线方法在自建歌词数据集和教育题目数据集上进行了对比实验,并进行了详细分析。实验结果表明,在情感分类准确度及其他各项指标中,该模型均优于其他文本情感分析模型。