【摘 要】
:
短文本情感分类一直是信息处理领域中极具挑战性的问题。与文档级别的文本不同,短文本由于其自身的诸多特性:(1)短文本包含有限的上下文语境,并且语义表达往往不完整;(2)许多用户
论文部分内容阅读
短文本情感分类一直是信息处理领域中极具挑战性的问题。与文档级别的文本不同,短文本由于其自身的诸多特性:(1)短文本包含有限的上下文语境,并且语义表达往往不完整;(2)许多用户生成文本(UGC)如搜索查询,微博等短文本,并不总是很好地遵循书面语言的语法[1]。造成传统机器学习方法对其分析效果不是很理想。传统机器学习模型一般通过向量空间模型对短文本进行表示,通过文本特征扩展对分类效果进行优化,以此提高对短文本分类的效果[2-3]。但由于短文本一般都是句子级别的文本,大多存在语料简短,数据稀疏等问题,传统机器学习的性能往往表现一般。因此,本文采用深度学习的方法对短文本进行情感分析。本文的研究内容概括如下:(1)通过对当前短文本情感分析领域的前沿发展分析可知,基于深度学习的方法以其特征的自学习特性,在短文本情感分析问题上表现良好。本文在现有基于深度学习的短文本情感分析的研究基础上,我们研究发现:1)一部分短文本中包含一个或多个与该短文本实际表达的情感不一致或差异较大的词,我们称之为“干扰词”。这种“干扰词”在一定程度上干扰深度模型的判断,导致深度模型错误率提高。这些“干扰词”包括:未登录词的干扰、一词多义的干扰、描述对象的干扰。2)一部分短文本中存在长距离的特殊词语搭配结构时,深度模型对该种搭配结构特征捕捉能力低下,导致深度模型的分辨能力降低。在本文的工作中,我们针对深度模型存在“干扰词”和“长距离的特殊词语搭配结构”时表现不足的问题,深入探究了产生的原因。(2)针对以上两个问题,我们提出了一种融合双层注意力机制的短文本情感分析方法。该模型在第一层首先提取短文本的局部特征和长距离依赖特征,随后采用注意力机制分别自动化筛选两种特征中的有用信息,从而更加有效地过滤无关特征。然后在第二层,使用基于注意力机制的双向循环神经网络对局部特征和长距离依赖特征进行非线性组合,在增强模型表现力的同时,可以自动捕获更多相关的特征组合。最终输出层根据以上特征得到情感的分类标签。我们在MR、SST-1和SST-2数据集上评估了模型的性能。实验结果表明,我们的模型可以超过以前的方法。
其他文献
聚类是数据挖掘的重要研究方向。由于大部分聚类算法都没有考虑到用户分类习惯以及主要类别与离散类间的关系,聚类结果往往不易被归纳和理解。同时,大部分聚类算法都需要预先确定类别个数等参数,而用户往往对类别分布缺乏认知,导致聚类效果和质量难以保障。调查发现,认知心理学中的基本层次类别可按用户习惯进行分类,因此,本文引入其概念,通过挖掘聚类过程中的基本层次类别来解决上述聚类问题。分类效用是寻找基本层次类别的
随着用户对高清三维视频需求的日益攀升,2014年国际视频编码联合工作组(JCT-VC)在基于HEVC(High Efficiency Video Coding)标准的基础上,面向三维视频编码推出了多视点视频编
时空数据挖掘一直是数据挖掘中一个重要研究领域。通过对时空数据的处理,能从中发现提高生产效率、提升生活质量的知识。由于基于位置的社交网络(LBSN)迅速崛起,位置挖掘也迎
自2006年彭宇事件引发热议以来,以广场舞大妈抢占公共场地、老人强行要求让座和扶老人反被讹等为代表的负面新闻在舆论场中持续蔓延。“老人变坏”、“坏人变老”、“倚老卖老”等污名化标签诱发了大众对于老人群体的刻板印象,代际问题备受关注。从新闻传播学的视角看,代际关系中包含了人际传播和群体传播话题。因而,本文拟从新媒体使用的角度出发,通过对双方社会距离的测量来考察青、老年群体的交往意愿和交往行为,试图探
目的:探讨乳腺浸润性导管癌患者肿瘤组织中Mfn2的表达情况与临床病理指标及预后的相关性。方法:收集来自河北医科大学第四医院2008年1月到4月确诊为乳腺浸润性导管癌患者共12
背景弥漫性肺泡出血(diffuse alveolar hemorrhage,DAH)是系统性红斑狼疮(systemic lupus erythematosus,SLE)的罕见且致命的并发症。由于DAH发病机制的复杂性,目前临床上针
目的:Zn(锌)缺乏参与到食管癌的发生发展中,miRNAs是缺Zn影响食管癌发生的重要途径,而ZIP5(SLC39A5)调控着体内Zn水平,目前尚无关于miRNAs与ZIP5表达相关的研究,因此本实验旨在研究食管癌高发区中与调控ZIP5表达相关的miRNAs分子机制,以阐明miRNAs在食管癌中发挥的作用,从而为miRNAs在我国食管癌高发区患者的有效诊断和精准治疗中提供实验依据与方向。材料与方法
随着移动互联网和多媒体技术的迅猛发展以及生活水平的不断提高,人们对视频内容和质量提出了越来越高的要求。由于内容丰富及高清、超高清视频包含很大的信息量,使得数字化后
大规模天线阵列作为5G核心技术之一在近些年得到了长足的发展,其基本架构又分为集中式系统和分布式系统两种。分布式中的一种重要架构就是无小区大规模天线阵列,其包含大量在相同时频资源下向相对数量较少的多个用户提供服务的分布式接入点,该架构对抗阴影衰落的能力较强,可以极大的提升用户服务质量的公平性。由于大规模天线阵列具有信道硬化特性,平均了信道的小尺度衰落,现有研究多是假设在大尺度衰落已知条件下进行功率优
随着无线通信网络走进千家万户,社会信息化水平得到不断提高,但日益增长的无线通信业务和用户却加剧了有限频谱资源的匮乏程度,在异构网络(Heterogeneous Network,Het-Net)框