基于深度学习的电影评论情感倾向分析研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xt23z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断普及与发展,越来越多的用户选择互联网作为获取信息的第一渠道。与此同时,随着全面小康时代的到来,人民对精神文化娱乐的需求日益增强促进着电影文化产业蓬勃发展。面对互联网中海量的电影及评论数据,利用情感分析技术对评论数据进行分析,挖掘评论文本中隐含的情感倾向与价值趋向,一方面为消费者作出消费决策时提供参考意见,另一方面可以帮助电影创作者了解观众喜好与市场需求,从而创造出更加优秀的电影作品。由此看来,该课题具有较强的社会价值与经济效益。
  本文通过对情感分析的基础知识学习,对传统的情感分析方法进行了深入的学习与研究,最终提出了一种结合传统情感分析方法与深度学习网络的有效情感分析方法。该方法针对情感分析过程中的文本向量化表示以及情感分类模型两个部分进行了改进,并通过相对应的实验对其有效性进行了验证。
  在文本的向量化表示部分,本文在Word2Vec的CBOW模型基础上提出了一种结合关键词与上下文共同进行中心词预测的KWCBOW模型。KWCBOW模型打破了传统的CBOW模型在进行预测过程中对词向量窗口大小的依赖,丰富了输入层中的词间联系,使得中心词的预测在相对短的时间内不仅与上下文建立了联系,还加强了它与整篇文档之间的联系,从而提高了中间词预测结果的准确性与合理性。其中,关键词提取部分采用了结合TF-IDF算法、平均信息熵算法和传统TextRank算法的一种利用词语初始权重构建词间转移矩阵的改进算法TIHTextRank实现文本关键词提取。最后,针对TIHTextRank算法本文设计了关键词提取相关的对比实验,对TIHTextRank算法的有效性进行了验证。在此基础上,针对KWCBOW模型从语言学与情感分析任务两个方面设计并实现了对比实验,对KWCBOW模型的有效性与可行性进行了进一步的验证。
  在情感分类模型部分,结合CNN卷积神经网络与Bi-LSTM双层长短时记忆神经网络分别善于提取文本局部特征和全局特征的特性,融合Self-Attention机制提出了一种混合深度学习神经网络模型SA-BLCNN。该模型首先通过CNN网络中的多次卷积、池化等操作对文本的局部信息进行提取,同时利用Bi-LSTM对评论文本的全局特征进行提取,再经过特征融合层将这两个不同方面的特征进行融合。然后,将融合后的特征向量经过自注意力机制权重调整层进行权重计算与调整,最后将其输入至全连接层经SoftMax分类器得出分类结果。针对该模型,在使用KWCBOW模型进行文本向量化表示的基础上,本文不仅设计与实现了多组单一参数作为变量的参数调优对比实验,还通过设计与CNN等常见的情感分析深度学习模型对比实验,对该模型的有效性进行了进一步的验证。
  最后,将本文提出的情感分析方法应用于电影评论情感分析领域,设计并实现了对电影评论文本的自动化情感分类系统。
其他文献
多普勒效应在雷达系统中有着重要应用。一方面通过测量多普勒频移可以推算出被探测目标的速度,另一方面也可以通过距离-多普勒原理进行逆孔径合成成像,获取更多的目标信息。现代化战争中电子对抗日益激烈,传统的窄带雷达难以满足全方位的作战需求。微波光子技术作为微波技术和光子技术的融合,具有高频率、大带宽、抗电磁干扰等优点,可以显著提升雷达的性能。但目前的微波光子系统大多由分立器件构成,存在重量大、体积大、成本
学位
学位
学位
互联网使用的爆炸式增长使得信息传播变得越来越容易,导致了严重的版权侵权问题,例如未经授权的复制、分发和修改数字化作品。为了提高网络信息的有效利用率,版权保护变得尤为重要。作为一种广泛使用的保护技术,水印方法已应用于多媒体版权保护的许多领域。水印是一种常用的信息嵌入技术,用于保护图像,视频和音频信息。它通过不可见的修改将关键信息嵌入到需要保护的数据中。在图像水印方案中,主要的关注点有安全性、隐蔽性和
学位
语音不仅传达着语义信息而且也传达着情感信息。计算机使它的使用者能够通过自然的交互,高效高质量地完成既定的任务。随着语音情感挖掘工作的不断发展,对社会服务、医学、安全、工业控制等相关领域都有实际的应用,但是由于情感定义的不确定性和缺乏统一的建立标准的数据库以及情感特征的模糊性,使得语音情感识别技术成为了一个难题,还存在许多有待攻克的难关。为了解决语音情感识别中识别率不高和还不能做到迁移学习且鲁棒性较
随着大数据时代的飞速发展,数字图像在互联网上的应用和传输已经比过去普遍得多。因此,图像的加密和压缩技术对公共网络上的实时传输和存储至关重要,具体分为两个阶段,第一阶段防止信息泄漏,第二阶段减少信息数据量。传统的分组密码DES、AES最初是为加密文本数据而设计的,并且被发现不适合于具有高像素相关性和冗余特征的数字图像加密。现今,研究人员已经注意到混沌系统的基本特征具有较为理想的密码属性,可以作用于图
学位
近年来对数据安全的要求逐渐提高,密码系统的安全性变得尤为重要。混沌系统因其伪随机性、对初始条件极为敏感等优良特征被应用于密码学中。混沌密码系统的安全性一般通过经典的统计学测试来进行评估,例如SP 800-22测试,雪崩测试等,对混沌密码系统的攻击也主要使用数学手段。然而密码系统运行时会泄露能耗、电磁、声音等旁路信息,这些信息往往和密码系统所处理的数据有关。旁路攻击利用密码系统所处理的中间数据和旁路
学位
随着大数据和人工智能的不断发展,网络系统的设备数量增加,网络系统部署工作量和难度越来越大。运维人员和现场网络配置人员在配置过程中,经常需要做一些重复性的配置工作。传统的网络配置一般需要接口配置、相应链路速度以及网络协议等。在小型网络中,这种情况可以简单容易的实现且基本不会发生错误,一旦发生错误也可较高效的对问题做到解决。但在大型网络中,这显然是一个很繁琐的过程。本文在原有Python技术支持下提出
学位
码分多址(CDMA)系统是一种干扰受限系统,其主要干扰为码间干扰和多址干扰(MAI).随着用户数的增加或信号功率差异的增大,由于各用户的扩频序列很难实现完全正交,信号间的相关性不为零,由此产生的多址干扰就成为CDMA通信系统的一个主要干扰.多址干扰严重限制了系统容量的提高.因此抑制多址干扰就成为码分多址蜂窝移动通信系统的一项重要任务.多用户检测(MUD)是宽带CDMA通信系统中抗多址干扰的关键技术
学位
冲击地压是在煤岩开采过程中发生的动力破坏现象,由于复杂的地质条件和多样的开采方式使冲击地压具有较强地模糊性、非线性。冲击地压灾害的发生往往会造成较大的人员伤亡和财产损失,因此精准地预测冲击地压对于煤岩安全稳定开采具有重要意义。  论文首先分析了煤岩冲击地压前兆特征信号中的声发射信号、应力信号和红外辐射信号的变化规律。针对单一的前兆特征参量不能完整的表征冲击地压发生状态等问题,提取声发射振铃计数和信
学位