基于深度学习多模型融合的中文短文本情感分类算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:danielwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,越来越多的用户喜欢在网络媒体上发表观点并进行交流。这些观点和交流通常以载有情感色彩的文本形式呈现,对这些文本的情感进行分析可以帮助提升网络的精准营销、舆情的有效监控等。与英文文本情感分类相比,中文文本情感分类目前在文本情感分类研究中关注较少,并且准确度一般较低。因此,中文短文本情感分类具有较大研究价值。本文通过研究词向量、网络结构、训练方法和损失函数对于深度学习文本分类模型的影响,训练多个深度学习模型,通过模型融合提升中文短文本情感分类的准确度。首先,本文分析词向量对于深度学习文本分类模型准确度的影响,发现深度学习文本分类模型用预训练的词向量可以获得较高的准确度。鉴于textCNN(Convolutional Neural Network)网络中最大值池化(Pooling)会丢失重要特征信息,本文对其池化方法进行了改进,得到了K-Max-CNN网络;同时借鉴text CNN网络的特点对DCNN(Dynamic CNN)网络进行改进,得到了四种改进的DCNN网络,并通过实验验证:与改进前的网络相比,K-Max-CNN网络和四种改进的DCNN网络均能获得更高的准确度。其次,针对深度学习训练结果不稳定的问题,借鉴递进学习的思路提出“先难后易”的递进学习训练方法,并通过实验验证了这种训练方法可以使训练结果更稳定,并训练得到准确度更高的模型;利用本文改进的焦点损失函数,避免大量的负样本对模型训练的负面影响,使模型训练过程中更加关注重要的样本,从而提升了模型的准确度。最后,利用预训练的词向量和改进的网络模型,并在多类别情感分类的深度学习模型中使用本文改进的焦点损失函数,采用“先难后易”的递进学习训练方法,训练多个深度学习模型,并进行模型融合建立文本分类模型,分别应用于主客观情感、多类别情感和情感极性这三种中文短文本情感分类问题中。实验结果表明本文提出的基于深度学习多模型融合的中文短文本情感分类方法所建立的模型与对比模型中准确度最高的模型相比,准确度分别提升了0.79%、2.85%和2.05%。
其他文献
散文,尤其是文艺性很强的抒情散文,作用于人的不仅仅是文学语言的铢积寸累,而是给人高层次艺术素养的熏陶。因而学习和欣赏抒情散文的意义实在不小,本文谈谈个人的浅见。 Pr
无论在合唱中还是在独唱中,歌词的清晰与否是决定歌曲的演唱完美与否的重要因素之一。要把歌词表达的清晰准确,除了需要扎实的声乐基本功之外,同时还需要从两方面深入思考:一方面
辽宁省少数民族人口众多,民族地区教育问题以及农村基础教育发展问题备受关注.与时俱进的深化辽宁民族地区基础教育,关系到辽宁省教育均衡发展,是辽宁民族地区群众摆脱落后环
互联网技术高速发展,新的技术不断涌现,比如网络团购、移动互联网、信息系统、智能手机、电子商务等,在这样的背景下,银行用户关系的管理也引起银行的高度关注,且已经被运用到实践中。“互联网银行”、“网上信贷”、“信贷工厂”等词也开始出现,它们承载着巨大的网银相关的信息,成为了当前网银有关信息的代名词。同时面对着不断增长的网络信息数据,网银的功能也变得越来越强大和完善,被越来越多人关注。如今“互联网”+“
目前,临床上肌酐酶的测定多采用不去蛋白的Jaffe苦味酸速率法(速率法),此方法有一定的局限性,不能排除一些药物如维生素C、头孢类抗生素及体内一些代谢物质,如丙酮酸、乙酰乙酸等对
选择CNKI数据平台,对现有文献进行统计、整理和分析,重新认识有关本科高校旅游管理专业课程体系建设问题与策略研究的现状,结果发现:在研究与实践中还存在研究深度不够、核心
设计活动作为一项高级形式的脑力劳动,是一个感性和理性并在的思考过程。设计价值产生于设计活动,并最终体现在满足人的物质和精神需要、符合社会可持续发展、为社会带来经济
文章针对线性模型中设计阵存在复共线性,提出了参数估计的一种新的几乎无偏两参数估计,在均方误差矩阵准则下,给出了新估计优于最小二乘估计、几乎无偏岭估计、几乎无偏Liu估
日语语篇中的名词性指称词可以分为连体指示词+泛指词、连体指示词+普通名词、普通名词或名词短语3个类型,它们具有重要的衔接语篇的功能。从所指对象上看,名词性指称词与其
随着Web2.0的蓬勃发展,互联网上产生了大量由用户发表的评论,其中表达的观点看法对大众消费的影响越来越大,因此分析评论中蕴含的情感信息对产品销量的预测以及市场战略的调整有