基于深度学习的中文文本情绪分类方法研究

来源 :北京建筑大学 | 被引量 : 0次 | 上传用户:songfeng816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情绪分类领域面临中文文本分类较少的困境,同时已有的情绪分类任务大部分以情感极性分类为主,并不会对中文文本进行细粒度的情绪划分,导致缺乏专门的中文情绪分类语料库。而在中文文本情绪分类领域特征提取方面,存在文本特征提取困难、上下文联系信息难以获取和局部特征提取不够全面等问题。本文针对上述问题,在中文文本情绪分类任务中引入深度学习算法开展研究,取得了不错的分类效果。本文首先提出了一种中文文本情绪分类技术框架。因为大部分情绪分类任务以情感极性分类为主,并不会对中文文本进行细粒度的情绪划分,导致缺乏专门的中文情绪分类语料库,难以构建适合中文情绪分类的词汇表。针对此问题,本文选取的数据集为划分四类的细粒度情绪数据集,并对其进行可视化分析,选择合适的中文分词算法进行分词,最后构建适合中文情绪分类的词汇表。针对中文文本情绪分类领域文本特征提取困难、上下文联系信息难以获取和局部特征提取不够全面等问题,对比了多种词向量表示方法,最终选择Word2vec表示词向量,利用词向量本身所具有语义特征和语法解释性,并对生成的词向量进行文本特征选取,选择了适合中文文本情绪分类任务的特征向量。之后在传统卷积神经网络的基础上,结合注意力机制,设计实现了结合注意力机制的多核卷积神经网络中文文本情绪分类算法(AM-CNN),该算法核心是在卷积和池化部分使用多种不同尺寸卷积核来分别卷积池化后再进行组合的方式来解决单层卷积提取局部文本特征信息不完善、多层卷积结构提取的文本特征造成信息缺失的问题。对比实验结果表明了结合注意力机制的多核卷积神经网络中文文本情绪分类算法在中文文本情绪分类领域的有效性,分类精确率和召回率分别达到了0.8527和0.8491。接着效仿卷积神经网络在图像处理领域RGB三通道输入的方式,在本文提出的结合注意力机制的多核卷积神经网络中文文本情绪分类算法的基础上进行改进,设计并实现了双通道多核卷积神经网络中文文本情绪分类算法(DM-CNN),该算法的双通道特征提取方法结合Word2vec与注意力机制,使得卷积部分能够根据注意力权值进行卷积操作,从而改善上下文联系信息难以获取的问题。实验结果表明了改进后的双通道多核卷积神经网络中文文本情绪分类算法的精确率达到了0.8647,优于改进前AM-CNN算法。然后针对数据集样本不均衡问题,在双通道多核卷积神经网络中文文本情绪分类算法上设计并实现了不均衡数据集和均衡数据集的对比实验,实验结果表明在均衡数据集上的分类精确率为0.8713,优于在不均衡数据集上的分类效果。最后,针对深度学习算法通常都会遇到梯度消失、分类结果过拟合等问题,在网络结构中添加Dropout层。同时在DM-CNN模型上对比了三种优化器,分别为Adam优化算法、随机梯度下降法和RAdam优化算法,通过结果分析选取RAdam优化算法作为优化器添加到模型,避免了过拟合和梯度消失等问题。
其他文献
随着国家对于残疾人事业的高度重视以及相关政策的出台,残疾人的发展受到格外关注,我国现有约8500万残疾人,其中6200万左右残疾人生活在农村,而智力残疾者在农村地区所占比例相对较高。但是,从目前相关领域的研究来看,研究场所主要集中在城市,包括学校、城镇社区和康复机构,研究对象则主要以智障儿童、智障青少年群体为主,对农村社区成年智力残疾者关注较少。社会交往是每个人参与社会和发展自我的重要方面,对于农
学位
制动器是车辆制动系统的重要组成部分,其稳定性和高效性关系到车辆和驾驶人员的安全。制动时,制动器的摩擦片和制动盘发生剧烈摩擦,在接触表面产生大量的热,温度急剧升高,一般采用通风式制动盘来提高散热效果。但通风式制动盘在制动时,内部通道中存在的回流区阻碍了流体流动,使得通道内部散热不均匀,容易出现热裂纹和热衰退等现象。基于这样的背景下,本文对通风式制动盘内部回流区散热问题进行研究并解决,具有重要工程应用
学位
随着我国城市化进程的不断推进,我国建筑垃圾年产量逐年递增,现阶段对建筑垃圾主要的处理方式依然是放置和填埋,大量资源被浪费并对周边环境进行二次污染,建筑垃圾的资源化再利用的实行是个难题。其中,废弃混凝土的资源化再利用是首要难题,再生骨料、再生微粉在实际工程中应用难度很大,无法广泛应用,难以有效解决废弃混凝土资源再利用的问题。本文根据规范JG/T 573-2020《混凝土和砂浆用再生微粉》和JG/T4
学位
长城是世界上现存规模量、分布量最广的线性文化遗产,保存情况令人堪忧。其原因除了长期受到自然侵蚀等问题,遭到的人为破坏、管理不善也加剧了其快速消逝。自2003年以来,长城保护受到国家及各地的高度重视,各级政府纷纷颁布了许多保护条例及规划来保护这项宏伟的人类遗产。目前,古北口长城由于本地长城遗产资源的保护经费不足、周边生态环境恶化、旅游开发方式差异化等原因导致文化展示体系不完善、忽视长城沿线生态保护、
学位
正交异性钢桥面板桥梁因整体性好、自重轻、承载力强等众多优点而被广泛应用,此类结构构造复杂、应力集中现象明显,焊接、热切割等热处理过程不可避免的会在此类结构的关键细节产生残余应力,随着服役使用时间的增加,在车辆荷载循环作用下极易在关键细节处产生疲劳开裂,严重影响此类桥梁使用寿命。为研究钢桥面关键细节的残余应力产生过程及对疲劳性能的影响,本文以顶板-纵肋焊缝和横隔板弧形切口母材两处关键细节为研究对象,
学位
目的 探究医疗游戏干预在感染科发热患儿中的应用效果,以期为改善患儿情绪行为、降低患儿父母角色紧张水平提供参考。方法 选取2021年7月—2022年4月本院感染科收治的发热患儿为研究对象,其中将2021年7月—12月收治的患儿作为对照组,将2022年1月—4月收治的患儿作为干预组。对照组实施常规护理,干预组实施医疗游戏干预。对比两组患儿的情绪行为和患儿父母的照顾者角色紧张水平。结果 与对照组患儿相比
期刊
人群的异质性对传染病的基本再生数与疫苗接种策略的制定有着重要影响。本文主要研究了对易感人群进行疫苗接种的异质性多群组模型,以及具有年龄结构的多群组传染病模型。具体内容如下:一、以易感人群接种为背景构建了异质多群组的SEIAR模型,利用下一代矩阵方法求出模型的基本再生数和控制再生数。研究了优先混合方式和异质性对再生数的影响。研究结果表明,活性、亚种群规模以及疫苗覆盖率的异质性对再生数都有着重要的影响
学位
随着城市交通拥堵问题的日渐显现,乘公共交通工具出行成为了越来越多人的选择。城轨交通作为公共交通系统的重要组成部分,具有准点率高,运载能力强等优点。然而在便于人们高效出行的同时,列车的安全性也备受关注。城轨列车齿轮箱作为列车行走部的关键部件,齿轮箱中齿轮副传动可靠性直接关乎到列车运行的安全性。齿轮箱齿轮副发生疲劳破坏轻则导致齿轮箱出现异常响动,重则损坏齿轮箱,严重影响列车的安全运行。为预测城轨列车齿
学位
随着我国科研创新能力的不断提升,高校科研成果转化的重要性日益凸显。然而,2022年我国高校有效专利成果转化仅为3.9%,与2020年相比仅提升0.1%。推动高校科研成果转化,不仅有助于促进高校与产业界的深度合作,加速科技成果的应用和商业化,同时也能为人才培养提供更优越的资源配置平台。鉴于此,通过文献梳理等方式,归纳我国高校科研成果转化面临的诸多问题,其中包括科研成果转化专业水平不足、管理机制不健全
期刊
围护结构在装配式建筑结构中占据着重要作用,其类型分为内嵌式和外挂式。内嵌式一般采用内嵌墙板式和砌块砌筑式,外挂式多采用整块墙板或条板,因其具有施工速度快、工业化程度高和节能等优点,逐渐被应用到众多工程领域中。目前,外挂墙板多设计为非承重构件,在地震下不参与受力,因此,没有充分利用围护结构自身的强度和刚度。本文提出了一种在大震下可为主体结构提供二次刚度和冗余度的新型预制围护墙体,并基于两层足尺RC框
学位