基于深度学习的中文短文本情绪分类研究

来源 :中国人民公安大学 | 被引量 : 4次 | 上传用户:X5203344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前互联网上的文本多以短文本为主,如微信、微博等。短文本具有特征稀疏、表达不规范、表达情绪多样等特点。传统的针对长文本情绪分类的各种方法和技术均不适用于对短文本数据的情绪分类处理。因此,本文将图像领域取得很大突破的深度学习方法应用于中文短文本情绪分类,设计了基于LSTM-CNN的中文短文本情绪分类的技术方案,针对中文文本的特点,对数据进行了预处理,并通过大量实验证实了该方案的有效性。本文的主要工作体现在以下几个方面:首先,构建了中文短文本情绪分类语料库。由于目前没有公认的数据量较大的中文情绪多分类语料库,因此,本文确定了喜悦和赞扬两类正向情感以及失望、愤怒、憎恨、害怕四类负向情感,在此基础上,收集、整理相关数据,共筛选和梳理出两万余条标注的情绪语料,构成了情绪分类语料库。其次,对情绪分类语料库中的语料进行预处理。对语料的预处理工作主要包括中文分词以及词向量的训练两个方面。本文使用jieba分词工具包对中文语料进行分词处理,之后通过word2vec中的skip-gram模型将语料训练成词向量,以供分类模型进行分类。最后,本文提出了一种基于LSTM-CNN的中文短文本情绪分类模型。该模型将深度学习中LSTM和CNN相结合,可以分为四个部分:首先通过LSTM层提取文本的语义特征,引入attention机制对重要特征的位置进行特别关注,并将特征向量纵向堆积成二维矩阵;随后,将二维矩阵输入到卷积层,并在卷积层设置了三种不同大小的卷积核对不同颗粒度的特征进行初步提取;接着,在池化层采取最大池化的方法,对卷积层提取的特征进行二次提取;然后,通过全连接层对提取到的特征进行整合;最后,将得到的特征输入到softmax分类器,完成分类任务。通过对比实验证实:相较于其他分类模型,本文所提出的分类模型具有更优的准确率。
其他文献
我国地方绵羊品种资源丰富,以蒙古羊为代表的地方品种表现出良好的环境适应性和生产性能,而东弗里斯羊、戴瑞羊等引进的乳用绵羊品种具备良好的目标生产性能,但在内蒙古地区
近年来随着我国科技的发展与社会的不断进步,汽车数量呈现出逐年上升的趋势,汽车在给人们生活带来极大便利的同时,驾驶员的操作失误导致了越来越多严重的道路交通事故,给人民
为加强非洲猪瘟防控工作,充分发挥"群防群治"力量,有效打击违反非洲猪瘟防控相关规定的行为,根据《中华人民共和国动物防疫法》、《国务院办公厅关于加强非洲猪瘟防控工作的
电子商务是一项艰巨而复杂的系统工程,而ERP、SCM、CRM作为其关键思想和关键环节,既有各自的侧重点,又相互联系,相互影响。企业在实施电子商务过程中必须从战略高度把握这三
目的分析体检人群血脂水平分类及分型特征。方法收集2006年到柳州市人民医院进行健康体检人群17435例的血脂资料,按我国“血脂异常防治建议”并参考美国“ATPⅢ”作血脂水平分
无人机自组网是由传统的移动自组网发展来的,具有多跳、无中心、自组织等特点,具有比单架无人机更好的自适应和扩展能力,近年来受到越来越多的关注。OLSR(Optimized Link Sta
胡桃楸(Juglans mandshurica Maxim.)因其具有较高的经济价值和生态价值,而进行了大面积的栽培。但从当前的研究现状来看,如何培育大量优质的胡桃楸苗木是急需解决的关键问题。
目的探讨提高新式非脱垂子宫经阴道切除术优越性和安全性的技巧。方法2001年1月至2005年12月我院妇科行新式非脱垂子宫切除术213例,与1999年1月至2000年12月新式非脱垂子宫切
进入21世纪,随着国民经济和全民教育水平的不断提高,对旅游业也提出更高的要求,《“十三五”旅游业发展规划》中要求“理念创新推动旅游业再上新台阶”,首次将创新元素融入传统旅游行业。2013年10月1日实施的《旅游法》扼制了旅游业中存在的沉疴宿疾,同时也打破了业内公司的固有经营方式。本文以营销方式为视角,通过分析旅游业与CCT公司的实际情况,认为CCT公司应在营销方式上进行创新,实施定制营销来迎合旅游
随着当今社会经济的快速发展和我国低空领域的逐渐开放,直升机更加频繁的出现于我们的视野,在日益繁荣的社会生活和军事领域中发挥了巨大的作用。随着直升机数量的不断增多,