基于深度迁移学习的跨领域细粒度情感分析

来源 :广东外语外贸大学 | 被引量 : 1次 | 上传用户:mt156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展,越来越多的网民在社交平台上阐述自己的观点,在新闻平台上发表自己的看法以及在电商平台上对产品进行评论,由此产生了大量的带有情感信息的评论文本数据,对这类文本数据进行情感分析具有重要的意义。情感分析从粒度上可以分为三类:文档级别、句子级别、评价对象级别。其中,文档级别和句子级别是判断整个文档或句子的情感倾向,属于粗粒度的情感分析,而评价对象级别的情感分析旨在判断给定的评价对象在句子中的情感倾向。在情感分析的应用场景中,对于部分新领域,往往没有标注的训练数据,而人工标注数据是十分耗时的,因此跨领域的情感分析是近年来的一个研究热点。本文以面向评价对象的细粒度情感分析任务为基础,通过深度迁移学习技术解决目标领域标注数据不足的问题。本文的主要研究工作如下:(1)本文首先分析现有细粒度情感分析方法的不足,然后对现有的方法进行改进,提出了融合多种词表示方法与多种注意力机制的细粒度情感分析方法。考虑到现有的研究方法在词表示层面上往往采用静态的词向量,这类表示方法无法解决一词多义的问题,因此本文将融合字符级别(Character-level)、词级别(Word-level)以及上下文级别(Context-level)等不同粒度的信息对词的表示。考虑到评价对象词与评论文本的关系,本文采用多种注意力机制(包括自注意力机制、协同注意力机制)增强上下文的表示;在输出层,考虑到评价对象词在评论中往往与情感词距离很近,因此本文将位置信息融合到模型中。实验表明本文提出的方法相较于基准方法能更准确的实现细粒度的文本情感分类。(2)针对于某些新的领域缺乏标注数据的问题,本文提出一种基于深度迁移学习与半监督学习方法融合的框架来解决跨领域问题,使用源领域中的标注数据,学习领域之间的共享知识,并将其迁移到目标领域中。本文使用预训练的BERT模型对上下文进行编码,使用KL散度特征分布的距离进行度量,从而解决领域之间的特征自适应问题。现有的跨领域方法都大多没有利用目标领域的未标注数据,本文使用半监督学习的方法,利用未标注数据增强模型对未知数据的泛化能力。具体的,使用熵最小化(Entropy Minimization)对模型进行约束,鼓励模型在无标签数据上输出高置信度的预测结果;使用一致正则化(Consistency Regularization)以及回译(Back-translate)的策略,使得模型对噪声不敏感。实验表明,本文提出的迁移方法能够有效的解决跨领域的问题并且当模型融入半监督方法之后,可以很大程度的提升在目标领域的预测效果。
其他文献
2016年,石柱县委、县政府确立了“转型康养、绿色崛起”发展主题,提出将大力发展康养产业、打造康养经济、建设“康养石柱”的总体思路,把康养经济放在前所未有的战略位置,不仅得
许多养鱼户在消毒时使阳漂白粉,如果用块灰代替,这不仅经济方便,而且有很多好处。 一、防治作用:块灰,又名生石灰、氧化钙,为灰白色的块状物。在空气中,块灰易吸水逐渐变成粉
自从苏联解体后,至今对俄罗斯学校体育的现状知之甚少。正巧,应上海体科所邀请前苏联著名运动训练专家马持维也夫教授来京讲学之机,拜访了他。当询问俄罗斯现今学校体育状况,
期刊
研究性教学模式以建构主义为理论指导,以真实项目为核心,创设研究性课程环境,培养学生发现、分析、解决问题的能力。该研究以英语基础写作课为例,从课程目标重塑、课程内容重
本文分析苗药莴梗比近年来的文献资料,对其化学成分和药理作用等情况进行综述。其化学成分主要有萜类、黄酮类、甾醇类、挥发油以及有机酸类。苗药莴梗比在抗癌、抗肿瘤、抗
公务用车是“三公消费”的一部分。在2012年底中央出台八条规定以后,各地公款吃喝和公款出国现象已经大为减少,可以说已得到有效遏制。在“三公消费”中,公务用车情况最复杂、消
目的:研究多普勒超声监测正常胎儿主肺动脉流速曲线的应用价值。方法:选取2017年至2018年妊娠20~40周的正常胎儿200例,按孕龄时间分为四组,采用多普勒超声测量胎儿的肺动脉主
青是我省新兴的名优特果树,近几年发展很快。但由于对青(木奈)的生长、结果习性缺乏足够的了解,致使产量低而不稳,严重影响了青(木奈)大面积发展。 根据生产实践及有关试验
“五步”指明确目标、自主探究、反馈点评、总结提升、回忆复述五个课堂环节,“五步”教学模式是实现高效课堂的基本保证。
以学定教,一种着眼于儿童学习需要与生命发展的生本教学理念,包含两个层面:以儿童的视角对话教材;以儿童的需要确定教学内容,制订教学策略。只有充分站在儿童的立场上,激活学