基于深度学习的情感分析方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:txsliwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着深度学习在图像处理上取得的卓越成就,各类学者纷纷将其应用到自然语言处理情感分析任务上来。虽然相对于传统的基于词频统计、规则算法等技术有明显优势。但在具有情感极性转移的文本中难以捕捉到情感倾向,从而限制其分类精度。此外,现有模型严重依赖于文本向量表示的质量,而人们的评论数据错综复杂,使用向量来表示文本特征中的情感是非常有限的。而且,文本中的语言知识,如情感词典,否定词(如不、从不、才怪、怎么可能等)和强度副词(如非常、及其、很等),需要人工标注来提高模型预测精度。然而,这些情感词的标注,需要具有一定语言知识的专业人士来挖掘构建,且人为开发的情感词典可能不适用于某些特定领域,不易扩展。本文针对以上问题,进行情感分析方法研究。本文的研究内容如下:
  (1)对比了传统的情感分析技术和基于深度学习的情感分析技术,通过实验验证基于深度学习的方法在分类精度上普遍优于基于传统的情感分析方法,总结出基于深度学习的方法是未来研究情感分析任务的必然趋势。
  (2)针对具有情感转移词的文本中难以判断情感倾向问题,提出一种新型的卷积注意力机制模型,使用卷积注意力机制来捕获文本中具有语义转移词语,并通过实验验证其有效性。
  (3)结合上面提出的卷积注意力机制,构建了一种新型的基于卷积注意力机制的情感分析网络模型CNN-Attention-LSTM。使用卷积注意力模型捕获文本中情感转移词,然后加权到文本分布式表示的矩阵中,最后通过长短记忆神经网络模型进行分类。通过在情感二分类和五分类的数据集上进行试验,对比传统的情感分析方法以及目前新颖的深度学习模型,此模型取得了优异结果。
  (4)针对现有模型严重依赖于文本向量表示的质量问题,提出了基于长短记忆神经网络的胶囊模型LSTM-Capsule。设计了具有卷积注意力机制的胶囊结构,胶囊结构包含一个属性、一个状态和三个模块(表示模块、概率模块和重构模块)。将LSTM网络中隐藏层的输出作为胶囊模型的输入,优化函数为正确分类的胶囊输出的概率最大化和词向量重构后误差最小化。在选取的两个公共数据集和一个专有数据集上实验表明,该模型取得最佳分类精度。此外,该模型能够输出代表胶囊属性的情感倾向词,这些词在一定程度上反映出了数据集的领域特性。
其他文献
针对某小型高速无人机操纵性强、稳定性差导致高速段安全性不足的问题,确立了低速段采用角速率阻尼内回路,高速段采用角速率指令内回路的纵向控制策略,并设计了过渡模态实现控制律的切换,完成了从起飞、巡航、加速与高速飞行全过程的纵向控制,解决了无人机在高速段对纵向质心偏移敏感的问题。首先,通过刚体运动模型和气动数据插值的方式对无人机进行建模,并以CMEX模型库的方式导入Matlab进行配平线性化。经过对模型
图像融合是将同一场景的多幅图像合成一幅信息更全面且内容更丰富的新图像。它是多种传感器协同完成实际任务的有效途径,可明显改善单传感器成像的不足,提高系统的稳定性与可靠性。目前,在军事、视频监控、数码摄影,医疗诊断等诸多领域都具有很高的应用和研究价值。但是由于不同类型传感器采集图像的特殊性以及图像信息复杂性,图像融合技术还没有达到预期的效果。图像融合技术涉及两个关键环节,图像表示和融合策略的设计。在图
学位
互联网的快速发展给人们带来便利的同时,也带来了诸多问题,面对海量的信息,人们常常不知道如何选择。推荐系统是帮助用户快速发现有用信息的工具,是一种为用户“量身定制”的个性化系统。它可以根据用户的偏好需求模型来进行项目推荐,在这个过程中,与用户偏好需求越匹配的项目则越倾向于推荐给用户。  协同过滤算法是最经典且最成功的推荐算法之一。传统的协同过滤推荐算法的相似度量方法忽略了用户间行为一致性的问题,导致
Language and speech are the most important and direct ways of human communication,and they have an irreplaceable role in our daily life.With the development of deep learning and the continuous advance
学位
随着DNA测序技术的不断发展,测序的正确率和速度也在不断提高。在现阶段,第二代测序技术在市场上仍占有绝对优势,其显著特点是高通量、快速、低成本。针对第二代测序数据进行的基因组测序拼接的研究中,以基于De Bruijn图的拼接算法占绝对主导地位。传统的基于De Bruijn图的拼接算法使用散列表进行构图拼接。散列表存储的数据量庞大,占用大量内存(一般占用100G以上),随着数据量的增长,插入和查询时
大规模核方法模型选择是大规模核方法理论研究和实际应用的瓶颈和关键。现有大规模核方法模型选择大多在再生核希尔伯特空间(RKHS)中经验地选择核函数并设置模型参数,没有可靠的理论保障,也没有计算有效的模型选择方法。针对这一现状,提出大规模核方法模型选择的随机映射方法,将原问题映射到显式随机假设空间,在统计上保证得到与RKHS中模型选择方法相一致的结果。具体内容如下:  1.提出循环随机特征映射方法。首
随着现代社会的飞速发展,人体运动分析已经引起了诸多领域研究者的浓厚兴趣。人体运动分析的研究目标是使计算机能够基于人体结构、人体运动等先验知识,自动地重建人体运动,并实现对人体行为和身份的语义感知和理解。与传统外观特征相比,三维人体骨架特征对外界光照、视角和衣着变化具有较强的鲁棒性,并且能够从生物学、物理学和人体运动学等方面对人体运动过程进行精确的描述和解释。基于此,本论文工作主要围绕人体运动分析中
视频目标跟踪,即如何从实时视频中准确、快速地获取感兴趣目标的状态信息如位置和大小,为实现海量视觉信息的智能化应用提供了强有力的支撑,也是计算机视觉中的基本问题。然而,由于感兴趣目标是非特定的和持续变化的,且背景和干扰是复杂和多变的,上述问题极具挑战。如何依据较少的训练样本,快速构建精确而鲁棒的目标模型是视频目标跟踪中的关键问题。  本文主要研究如何设计考虑目标结构、目标及上下文空间分布和其时空变化
为了有效的感知周围的环境,人类的大脑在同时接收到多感官刺激时,将会通过一个连贯的整合机制对多源信息进行整合,从而完成外界对象和事件的探测、识别和认知。人脑的多感官信息整合在对象识别的一些方面要远优于计算机,例如复杂场景对象识别、语义提取和对抗样本等。对于人类和非灵长类动物的神经影像学研究已经揭示了多模整合出现在一个广泛的分布式系统中。然而,在复杂场景下视觉对象受到干扰时,人类大脑是如何协调多感官的
随着现代雷达技术的迅速发展和信号调制技术的日益提高,电磁环境变得日益复杂:空间中存在的电磁信号除了雷达发射的脉冲信号之外还存在大量杂波、噪声等其他干扰信号;低截获概率雷达的迅速发展使得侦察设备在捕获脉冲时存在大量丢失;世界各国各行业对雷达的大量应用使得空间中电磁信号的分布高度密集;新体制雷达的广泛使用使得雷达发射的脉冲信号占用的带宽持续扩大;空间中各种类型的脉冲信号之间的参数存在交错现象。电磁环境