Latent Sentiment Polarity Analysis of Chinese Texts in Social Networks Based on BERT-LCA

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Cantarali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪以来,情感分析已经发展成为自然语言处理(NLP)中最活跃的研究领域之一。在数据挖掘、网络挖掘、文本挖掘和信息检索方面也有广泛的研究。事实上,它已经从计算机科学扩散到管理科学和社会科学,如市场营销、金融、政治科学、通信、医学,甚至历史。由于其重要的商业性,引起了全社会的关注。之所以如此泛滥,是因为观点是事实的中心。几乎所有的人类活动,在相当程度上都会关心别人的看法。因此,每当我们需要做出决定时,我们总是会寻找他人的意见。不仅对企业如此,对个人也是如此。而在快速发展的中国社交网络中,由于汉字的繁杂,如何揭示文字背后隐藏的情感,仍然是一个难题。如今,随着中文社交网络的迅速发展,微博已成为人们表达自我的重要途径,尤其受到了广大年轻用户的欢迎。与普通中文文本相比,微博文本具有独特的风格,不仅包含更多的网络单词和字符表达,而且具有大量的“同一单词的不同含义”,这给情感分析带来了巨大的挑战。传统的微博文本情感分析方法大多采用情感词典来判断微博文本的情感极性,利用字典中的同义词和反义词以及字典的结构层次来计算词与正反种子词之间的语义相似度,并根据语义距离对词的情感进行分类,情感词典也可用于分析微博文本中单词的情感,获得并累积单词的情感强度,从而获得微博文本整体的情感极性。但是,基于字典的情感分析和传统的机器学习方法存在很多不足。首先,在特征提取中,非情感性的停顿词会影响文本的情感得分。第二,由于汉语的广泛性和深刻性,更多的语音部分成为影响模型准确性的重要因素,一种情况是同一个词在不同的语境中可以表示完全相反的情感含义。第三,由于情感表达在不同的领域有很大的差异,无论是有监督学习方法还是无监督学习方法,情感分类都面临着领域依赖性的问题。近年来,随着深度学习的发展,越来越多的研究人员将深度学习应用于微博文本分析任务。本研究是一种深度学习混合模型在微博情感极性分析中的应用,是解决上述问题的新举措。考虑到BERT预训练语言模型在中文微博文本情感分析等下游领域中适应性不足的问题,本文结合预训练语言模型BERT和LSTM-CNN-Attention(LCA)方法分析微博文本的情感极性,设计了微博文本情感分析模型BERT-LCA。该模型所包含的模块有:(1)利用BERT预训练语言模型获得微博文本的动态特征表示,该模型充分利用了句子中单词的上下文信息,从而使句子中的同一单词在不同上下文中具有不同的单词向量表达;(2)RNN可以对整个序列进行建模,并捕捉长期依赖性;(3)CNN可以很好地提取局部特征和位置不变特征,充分考虑文本中的局部特征信息和上下文语义关联,从而进一步提高了模型在微博文本情感分析任务中的准确性。(4)注意力机制能够同时提取文本的全局语义信息和局部特征,并根据类别标签关注局部特征,区分局部特征在句子中的重要性,找到词的真实含义。本文设计的BERT-LCA模型应用在目前公开的单标记中文微博文本数据集中,在对simplifyweibo4mood和weibosenti100k两种公开数据集进行数据清理后,设计了BERT-LCA混合模型和基于传统机器学习SVM分类方法、原生BERT、基于BERT预训练的CNN模型和BiLSTM模型的对比试验,实验结果的F1指标优于传统基于字典和机器学习的中文情感分析模型,部分的实验结果达到或超过用于进行对比的原生中文BERT模型,BERT-CNN模型和BERT-BiLSTM模型。证明该模型在单标记中文微博文本的情感极性分析任务中能够较好的提取文本的特征信息并进行有效分类。之后对于BERT-LCA模型在不同的batch、训练层数、学习率以及是否利用注意力机制下的准确度进行了对比试验分析,得出了在最优化的参数列表,接下来利用Mish作为激活函数,设计了BERT-LCA的改进方案,BERT-LCA-M,取得了一定的性能提升。下一步工作将考虑使用ALBERT等轻量级的Transformer模型,提升训练效率,并融合LCA模型的各层特征信息,而不仅使用注意力和卷积的表示方法,从而提升模型的准确度。
其他文献
工业革命以来,化石燃料的大量燃烧导致大气中CO2浓度不断升高。由于CO2是植物光合作用必不可少的原料,这将对植物生长发育产生深刻影响,而植物对CO2浓度升高的响应程度与矿质营养密切相关。氮(N)是植物生长所需的首要矿质营养元素,因此,CO2浓度和N的交互作用将怎样影响植物生长发育及生理生化过程?基于此,本研究以传统药食同源植物薏苡(Coix lacryma-jobi)为研究对象,采用盆栽控制实验,
外来入侵植物的成功入侵及扩张通常会导致本地植物退出原生境。西南喀斯特地区物种多样性较为丰富。然而,近年来剧烈的外来植物入侵打破了喀斯特生境的生态平衡,严重威胁着当地的物种多样性及自然生态系统稳定性。目前关于喀斯特地区外来植物入侵已成为生态学研究的热点论题,但在系统探索机理机制方面还十分有限。丛枝菌根(Arbuscular Mycorrhiza,AM)真菌是一种重要的功能微生物,能与陆地上的许多植物
踩踏路径对草坪具有重要影响,探索踩踏路径的特征及其形成过程有助于草坪管理政策和空间规划。本文以贵州大学校园内草坪踩踏路径为研究对象,采取实地调查和人工模拟踩踏的实验方法,探索踩踏路径的特征、形成过程及其所需踩踏强度。主要结论如下:1.校园草坪踩踏路径可分为捷径、扩展路径和局部路径三种类型。捷径和扩展路径主要分布于宿舍区、食堂、教学楼和礼堂等人流量较大区域,局部路径分布于草坪中凳子和雕像等周围。捷径
本研究于2019-2020年在贵州普定进行,以2个耐密性春玉米品种先玉1171和新中玉801为材料,通过设置3.0、4.5、6.0、7.5、9.0和10.5万株/hm26个密度,系统研究不同种植密度对玉米植株茎秆特性、冠层结构、光合生理特性、产量形成及机收质量的影响,明确2个耐密性品种对增密的响应差异,探明2个品种在贵州的适宜种植密度,以期为贵州春玉米密植高产及机械化高效生产提供依据与指导。主要研
甲骨文又称殷墟文字,是古代汉字的一种形式。甲骨文主要指商代晚期王室用于占卜的甲骨文或兽骨文字,商朝灭亡、周朝兴起后,甲骨文也在一段时期内得到应用,是研究商周社会史的重要资料。甲骨文的内容涉及自然生态、气候灾害、政治制度、皇室结构、宗法庙宇制度、文化礼制、土地所有权等,也包括商朝都城的社会经济生产、交通运输、外交考察以及权贵阶层的衣食住行、健康与疾病死亡、婚姻、养老等日常生活状况。过去研究古代汉字的
我国的公共文化服务对满足群众文化生活、提升全民文化水平、开展精神文明建设起到了重要的作用。基于供给侧改革视角,当前,我国公共文化服务活动还存在很多问题,公共文化服务体系有待完善,服务水平参差不齐,部分区域公共文化设施存在浪费的情况,即使供给了文化活动,也并非群众喜闻乐见的内容,难以获得群众认可。有关部门通过对供给侧改革展开研究,在公共文化服务的供给系统、制度、主体、内容和效率等多个方面寻求科学的发
词汇是小学英语教学中的重点,也是难点。传统的教师领读学生跟读这样机械重复的词汇教学方法难以激发学生的兴趣,因此教学效果不够理想。根据《义务教育课程标准》规定,在小学英语教学中,教师应该利用丰富多样的教学资源,使教学内容、形式、过程更加直观、生动、形象,以适应学生的认知特点。本研究以福建省三明市某小学四年级学生为研究对象,将全身反应法应用于词汇教学实验,目的是观察全身反应法在小学英语词汇教学中的效果
互联网的发展,方便了人们的日常生活,人们可以随时随地查询时事新闻、网络资料、博客等等,也可以快速发表、转载和评论自己喜爱的内容信息。随着互联网技术的快速革新,网络信息数量不断倍增,在更加开放、更新速度更快的互联网平台上发表的信息呈现出几何数量级的增长。随着如此巨量的数据信息资源的涌现,人们一边获得了巨量信息的同时,也不得不用自己大量的时间与精力来查阅和提取,人力手工地从海量的网络信息中提取有用的信
电子束熔丝增材制造技术具有成形速度快、缺陷可控、力学性能如疲劳性能优良等优势,对于高性能大型金属承力构件的制造有重要意义。而在电子束加工成形过程中,由于工件通过熔池融化凝固和堆积成形特点,以及模型的结构特征、成形精度等因素影响,使得需要经过一定后处理才能得到最终的工件,因此需要对加工成形的毛坯件预留一定余量。也就需要对设计数模经过一系列的模型再建处理,得到用以电子束熔丝成形加工的生产数模。基于数模
随着互联网技术的飞速发展,互联网上的各种数据正在急剧增加。这些数据在为人们提供便利的同时,也会带来“信息超载”的问题。如今,以基于内容和协同过滤为代表的个性化推荐算法已成为解决此问题的重要手段,使人们能够从大量信息中高效地获取他们所需的信息。然而,随着大数据时代的到来,协同过滤推荐技术的发展也面临许多挑战,其主要原因有两点:1.矩阵数据稀疏问题。在一个推荐系统中,例如以Netfix为代表的电影推荐