论文部分内容阅读
移动互联网的持续火爆使得各大社交媒体和电子商务平台成为观察人类情感的有效窗口。如何高效地利用计算机技术从海量文本数据中获得情感信息,从而挖掘出文本数据的商业价值,变得尤为重要。因此,文本情感计算成为当代认知科学的一大研究热点。深度学习算法是一类包含多层非线性变换的神经网络,通过逐层特征变换,将样本在原始空间中的特征表示变换到一个新的特征空间,从而更准确地预测结果。与传统模式识别方法的最大不同在于,基于深度学习的模式识别方法能够从数据中自动学习出刻画数据本质的特征表示,摒弃了复杂的人工特征提取过程。因此,在文本情感计算研究中,深度学习技术成为学习高可区分性情感特征的有效方法。这篇论文主要研究如何利用深度学习算法来解决文本情感计算中的两个重要问题:文本情感分类和情感文本检索。归纳起来,主要贡献包括以下四个方面。(1)鉴于句法语义信息已经被证明在句子级文本情感分类研究中可以增强对句子的表征能力,且从结构上来说篇章是由多个句子组成,提出了一种句法语义感知的篇章级文本情感分类算法。该算法采用层次架构,分别从词语层面和句子层面提取情感特征。词语层面的目标是在基于依存句法树的Child-Sum Tree-LSTM基础上引入注意力机制,生成有效的句子向量表示。句子层面的目标是使用基于注意力机制的LSTM模型处理每个句子得到篇章向量表示。相比较于十种常用的篇章级文本情感分类算法,真实数据集上的对比实验结果表明,将句法语义信息引入到篇章级文本情感分类研究中是有效的,在Accuracy和RMSE指标上取得了较好的分类结果,且在训练阶段模型的聚合速度更快。(2)通过观察评论数据发现,用户在用一段话评价多个对象时普遍遵循空间局部性,即每个评价对象的情感类别往往由其附近的上下文词语决定。提出了一种基于位置关注度的属性级文本情感分类算法,旨在考虑每个上下文词语与评价对象之间的关联度的同时,还考虑每个上下文词语与评价对象之间的位置距离对于分类预测的影响。该算法设计中存在两个挑战:其一,采用何种方式对上下文词语与评价对象之间的位置距离进行建模,生成位置感知向量;其二,如何将位置感知向量引入基于注意力机制的LSTM模型,提升情感分类的预测准确性。相比较于八种常用的属性级文本情感分类算法,真实数据集上的对比实验结果表明,该算法在Accuracy指标上优于其他算法。另外,将设计的位置感知向量应用到IAN算法中,也提升了情感分类的预测准确性,进一步说明了本章设计的位置感知向量的有效性。(3)对于同一条评论文本包含两个及以上评价对象的情况,单对象建模方法孤立地预测文本中每个评价对象的情感倾向,势必会受到其他评价对象的干扰,以致情感分类的预测准确性下降。提出了一种多对象同时建模的属性级文本情感分类算法,该算法在交叉熵函数上添加了一种基于Frobenius Norm的惩罚项作为新的目标函数,专门用于预测包含两个及以上评价对象的评论文本中的情感倾向。具体来说,该算法首先使用预先训练好的基于位置关注度的属性级文本情感分类算法初始化参数,计算每个评价对象对应的注意力概率分布,构建注意力概率分布矩阵;然后在训练过程中,该算法依据基于Frobenius Norm的惩罚项来调整注意力概率分布矩阵,使得同一条评论文本中不同评价对象能够聚焦文本的不同部分,从而在预测当前评价对象的情感倾向时尽可能地排除其他评价对象带来的冗余和干扰。真实数据集上的对比实验结果表明,对于一条评论文本包含两个及以上评价对象的情况,该算法在Accuracy指标上优于常用的九种单对象建模算法。(4)随着互联网上的情感文本资源越来越丰富,情感文本检索越来越受到学者的关注。然而,目前大多数文本哈希算法使用传统机器学习算法学习哈希函数,导致生成的哈希码不能很好地保存原始数据之间的相似性,且在衡量两个文本之间的相似性时忽略了情感因素。针对这些问题,在缺乏哈希标签的前提下,提出了一种基于自监督深度哈希的情感文本检索算法,该算法分成两个阶段:第一阶段先采用NSC+UPA模型生成篇章的语义向量,然后使用LE算法得到近似的哈希标签;第二阶段设计了一种深度哈希算法,在篇章的情感分类标签和第一阶段生成的近似哈希标签的联合监督下学习哈希函数,实现从高维数据到低维语义哈希码的映射。相比较于常用的七种文本哈希算法,真实数据集上的对比实验结果表明,该算法生成的语义哈希码很好地保存了原始文本数据中的情感相似性,从而能够快速地检索出情感相似的文本。