基于深度学习的文本情感计算研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liongliong461
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的持续火爆使得各大社交媒体和电子商务平台成为观察人类情感的有效窗口。如何高效地利用计算机技术从海量文本数据中获得情感信息,从而挖掘出文本数据的商业价值,变得尤为重要。因此,文本情感计算成为当代认知科学的一大研究热点。深度学习算法是一类包含多层非线性变换的神经网络,通过逐层特征变换,将样本在原始空间中的特征表示变换到一个新的特征空间,从而更准确地预测结果。与传统模式识别方法的最大不同在于,基于深度学习的模式识别方法能够从数据中自动学习出刻画数据本质的特征表示,摒弃了复杂的人工特征提取过程。因此,在文本情感计算研究中,深度学习技术成为学习高可区分性情感特征的有效方法。这篇论文主要研究如何利用深度学习算法来解决文本情感计算中的两个重要问题:文本情感分类和情感文本检索。归纳起来,主要贡献包括以下四个方面。(1)鉴于句法语义信息已经被证明在句子级文本情感分类研究中可以增强对句子的表征能力,且从结构上来说篇章是由多个句子组成,提出了一种句法语义感知的篇章级文本情感分类算法。该算法采用层次架构,分别从词语层面和句子层面提取情感特征。词语层面的目标是在基于依存句法树的Child-Sum Tree-LSTM基础上引入注意力机制,生成有效的句子向量表示。句子层面的目标是使用基于注意力机制的LSTM模型处理每个句子得到篇章向量表示。相比较于十种常用的篇章级文本情感分类算法,真实数据集上的对比实验结果表明,将句法语义信息引入到篇章级文本情感分类研究中是有效的,在Accuracy和RMSE指标上取得了较好的分类结果,且在训练阶段模型的聚合速度更快。(2)通过观察评论数据发现,用户在用一段话评价多个对象时普遍遵循空间局部性,即每个评价对象的情感类别往往由其附近的上下文词语决定。提出了一种基于位置关注度的属性级文本情感分类算法,旨在考虑每个上下文词语与评价对象之间的关联度的同时,还考虑每个上下文词语与评价对象之间的位置距离对于分类预测的影响。该算法设计中存在两个挑战:其一,采用何种方式对上下文词语与评价对象之间的位置距离进行建模,生成位置感知向量;其二,如何将位置感知向量引入基于注意力机制的LSTM模型,提升情感分类的预测准确性。相比较于八种常用的属性级文本情感分类算法,真实数据集上的对比实验结果表明,该算法在Accuracy指标上优于其他算法。另外,将设计的位置感知向量应用到IAN算法中,也提升了情感分类的预测准确性,进一步说明了本章设计的位置感知向量的有效性。(3)对于同一条评论文本包含两个及以上评价对象的情况,单对象建模方法孤立地预测文本中每个评价对象的情感倾向,势必会受到其他评价对象的干扰,以致情感分类的预测准确性下降。提出了一种多对象同时建模的属性级文本情感分类算法,该算法在交叉熵函数上添加了一种基于Frobenius Norm的惩罚项作为新的目标函数,专门用于预测包含两个及以上评价对象的评论文本中的情感倾向。具体来说,该算法首先使用预先训练好的基于位置关注度的属性级文本情感分类算法初始化参数,计算每个评价对象对应的注意力概率分布,构建注意力概率分布矩阵;然后在训练过程中,该算法依据基于Frobenius Norm的惩罚项来调整注意力概率分布矩阵,使得同一条评论文本中不同评价对象能够聚焦文本的不同部分,从而在预测当前评价对象的情感倾向时尽可能地排除其他评价对象带来的冗余和干扰。真实数据集上的对比实验结果表明,对于一条评论文本包含两个及以上评价对象的情况,该算法在Accuracy指标上优于常用的九种单对象建模算法。(4)随着互联网上的情感文本资源越来越丰富,情感文本检索越来越受到学者的关注。然而,目前大多数文本哈希算法使用传统机器学习算法学习哈希函数,导致生成的哈希码不能很好地保存原始数据之间的相似性,且在衡量两个文本之间的相似性时忽略了情感因素。针对这些问题,在缺乏哈希标签的前提下,提出了一种基于自监督深度哈希的情感文本检索算法,该算法分成两个阶段:第一阶段先采用NSC+UPA模型生成篇章的语义向量,然后使用LE算法得到近似的哈希标签;第二阶段设计了一种深度哈希算法,在篇章的情感分类标签和第一阶段生成的近似哈希标签的联合监督下学习哈希函数,实现从高维数据到低维语义哈希码的映射。相比较于常用的七种文本哈希算法,真实数据集上的对比实验结果表明,该算法生成的语义哈希码很好地保存了原始文本数据中的情感相似性,从而能够快速地检索出情感相似的文本。
其他文献
为了解城市污水处理厂对蛔虫卵的处理效果,利用改良的Bailenger方法,对常州市5家污水处理厂接纳污水和排放尾水蛔虫卵浓度进行检测。结果表明:以处理生活区污水为主污水处理厂
笔者根据《红楼梦》第17、18回中大观园各处建筑及景观得名的相关段落,从建筑学视角,讨论建筑、景观的名字与建筑本体交相映生的趣味,并对清人的审美情趣进行分析.
<正>腰椎椎体间植骨融合术是治疗腰椎椎间盘退变性疾病(disc degenerative disease,DDD)的经典手术方式,包括后路腰椎椎体间融合术(posterior lumbar interbody fusion,PLIF)
奥拓·塔克塔基什维利(1924—1989年)是格鲁吉亚知名的作曲家、音乐教育家和指挥家,他毕生奉献于格鲁吉亚音乐文化的传播与发展,为弘扬格鲁吉亚民族音乐做出了巨大贡献。他的
乳扇是云南大理的一种传统民族乳制品,属工艺独特的拉伸型干酪。采用单因素对比试验设计.研究了不同凝乳条件对乳扇品质的影响。结果表明,凝乳方式和凝乳PH值对乳扇感官、理化和
产羔数是绵羊重要的经济性状,但又因产羔性状遗传力低,传统育种方法对其性状的改良进展较为缓慢。随着新型生物技术的出现,特别是分子标记技术广泛地应用于绵羊个体的初期筛
国有纺织企业与非国有企业经营状况比较分析顾强国有企业,即财产所有权为国家所有的那些企业。非国有企业包括城乡集体合作经济(包括原来形成的集体经济)、外资、合资、联营、股
根据高速动力车的特点,从承载结构轻量化设计、结构设计动力优化、疲劳强度评定的工程方法和复合弹簧悬挂系统横向刚度及稳定性评定方面,研究高速动力车承载结构疲劳强度分析
日本第一劝业银行事件始末沈曦崔朝晖施韵华第一劝业银行是日本10家城市银行之一。1997年初,“总会屋“事件的曝光使第一劝业银行受到牵连。第一劝业银行和野村证券公司与总会屋代表
钟馗系我国古代民间传说人物,多在端午节悬其像,言其能驱逐妖魔邪章,迎福接瑞。著名画家钱大统先生在吸取前人及同时代人技艺的基础上,以青花料色为钟馗造像,其乌纱冠戴,腰系