基于情感词典和深度学习技术的短文本情感分类研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:mm315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动4G技术的发展及智能手机的普及,世界各地的用户足不出户就可以在互联网上对电影、商品等进行评价。越来越多的研究者使用自然语言处理技术应对每秒都会增加数GB的文本信息,探究其内在的情感倾向并将其成功应用在社会舆情监督、股票投资等方面。以往的情感分析多是基于情感词典的方法和机器学习的方法,然而这些方法都是基于人工构建的规则和人工抽取的特征之上,人力成本高。另外基于one-hot词的向量表示上面临着“纬度高”、“语义无关”的挑战。随着深度学习在自然语言处理领域中崭露头角,很大程度上解决了上述难题。因此,本文主要研究基于深度学习的词向量表示技术和短文本分类相关技术。论文的主要工作如下。(1)针对以往one-hot词向量表示上维度过高、词语语义无关的问题,采用word2vec工具对词向量进行预训练,进行文本表示。采用这种方法一方面很大程度降低了文本形式表达的维度,另一方面还传达了文本的语义信息,为神经网络模型提供更多的语义信息。鉴于分词时情感词提取的准确性可以影响后续词向量的质量,本文利用jieba分词时可以结合自定义词典提高分词的质量,将以往的情感资源进行整合作为自定义情感词典库,这样可以在提高分词的准确率的同时也可以利于情感词的提取。另外为了应对网络文本上含有情感倾向的新词,本文结合word2vec训练模型寻找情感新词,对自定义情感词典库进行扩展。通过训练不同分词下的不同词向量作为卷积神经网络模型的输入,在中文微博数据集上进行实验,分析不同的分类结果,证实本文方法的可行性。(2)传统情感分类方法需消耗大量的人力物力,而深度学习模型中的卷积神经网络可以不需要借助人力而自动提取不同维度的特征,GRU神经网络在结构简单的同时还能够存储远距离的信息,学习上下文的依赖关系。本文结合这两者的优点,设计了混合卷积神经网络和GRU神经网络的情感分类模型。实验证明,深度学习模型相较于传统的机器学习分类模型可以有效提高分类效果,并且本文设计的模型的分类效果要优于循环神经网络和长短记忆时网络模型。
其他文献
现如今,多媒体信息交流发展蓬勃,4G网络的应用也越来越普遍,同时5G通信技术也即将到来。视频这种信息交流中重要的传输媒介引起了广泛的重视。作为时下较为流行的一种视频编解码标准,H.264/AVC标准具有压缩比高、视频质量更好的优点。但正是因为H.264标准具有高的压缩比,在传输过程中如若发生传输错误,极易导致视频码流无法正确解码,因此差错掩盖在控制视频传输中的错误方面起着至关重要的作用。本文主要研
随着新型大规模数据中心的建立和发展,如何根据这些数据中心网络的新特征提升传输性能成为了产业界和研究界的新热点。网络传输最主要的目标是提升网络吞吐量和减小传输延迟
目的:分析青少年儿童黄斑前膜手术前后最佳矫正视力改变情况,同时应用微视野计评价术后黄斑区注视特点,并将其与术后最佳矫正视力进行相关性分析。方法:回顾性研究。研究对象
近年来,人脸图像补全技术成为了计算机视觉领域的研究重点之一,其中基于深度学习,特别是基于生成式对抗网络的人脸图像补全技术更是重中之重。神经网络能通过数据集中学习人
现代社会互联网和物联网的发展已越来越迅速,涉及的行业也越来越广泛。同时,移动设备中的传感器种类和性能也大大提升,使其传感、计算、存储、通信能力逐渐增强。这些因素也
土石坝作为如今最实用的坝型,被水电行业广泛应用。由于其自身优、缺点显著导致其安全性需要高度重视,在世界各地,人们采取各种不同的方法来维护其安全,而对其安全预测成为了
车联网通过无线通信网络将人、车、道路等众多交通因素联系起来,能够增强安全驾驶、提高交通效率并改善驾乘感受。为了实现安全驾驶类的应用服务,车辆需要周期性地广播包含其
在大规模多输入输出(Massive Multiple-Input Multiple-Output)系统中,下行链路预编码可以有效的消除用户间干扰和信道噪声,从而提高系统的通信性能。传统的基于优化预编码算
互联网和物联网的高速发展使无线接口数量呈现指数级增长,为了使海量机器能进行高可靠通信,获得高速率、低延时的体验,基于5G通信候选技术之一的非正交多址接入(NOMA)技术得到了深入研究。与正交多址接入(OMA)相比,NOMA不仅有更高的频谱效率,还能满足海量接口的需求,因此研究协作NOMA系统的性能对系统参数设计具有重要意义。但无线通信的广播特性会使系统受到窃听和干扰的影响,为了提高物理层的安全性能
医学图像分割在医学研究、临床诊断、病理分析、手术计划、影像信息处理、计算机辅助技术等医学研究和实践领域有着广泛的应用和研究价值。目前,多数前沿的图像分割算法在特