基于多部情感词典和深度学习的中文微博情感分析研究

来源 :安徽理工大学 | 被引量 : 2次 | 上传用户:lszll2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以微博为代表的中文媒体平台正在不断融入人们的生活,人们每天都在这些平台上发表自己的观点、感受等其他主观信息,如何从这些信息中提取有价值的情感信息并加以利用就称作情感分析。本文以中文微博为研究对象,分别从基于情感词典的方法和基于深度学习的方法对中文微博进行情感分析研究,研究结果证明了两种方法对中文微博的情感分析均具有很好的作用,主要研究内容如下:(1)首先根据目前已有的情感词典和微博特性,可以发现目前已有的情感词典无法满足微博情感分析,因此本文专门开发扩建了六部情感词典,包括原始情感词典、否定词与双重否定词典、副词词典、连词词典、表情符号词典和中文微博新词情感词典,其中构造中文微博新词情感词典是该方法的一个关键点,它基于改进的PMI算法来进行构造。其次对每个词典中的每一个词赋予一个情感值,然后进一步分析中文微博文本之间的语义规则集,将句间分析规则和句型分析规则引入到中文微博的情感分析中,进一步提高了中文微博情感分析的准确性。最后,基于多部情感词典和语义规则集的方法,本文提出了一种从复句到单句,再从单句到词,并结合表情符号的中文微博情感计算算法。根据此算法将微博数据集分为正面、负面和中性三种类别,然后通过三组对比实验:基于原始情感词典的方法、基于多部情感词典的方法、基于多部情感词典和规则集的方法对微博进行情感分析,结果表明本文提出的基于多部情感词典和规则集的方法在准确率、召回率和F值三个层面上均优于前两种方法。(2)本文为了研究利用深度学习的方法对微博进行情感分析的有效性,分别针对基于卷积神经网络CNN和基于长短期记忆网络LSTM的方法的优点和缺点,提出一种将两者结合的模型即CNN-LSTM模型,该模型首先利用卷积神经网络CNN对微博进行特征提取,然后利用长短期记忆网络LSTM对微博进行情感预测。通过实验对比发现,该模型对微博的情感分析相比于单一的CNN模型和LSTM模型在准确率、召回率和F值三个层面上均有很大提高。图31 表6 参80
其他文献
本文研究了敌对节点情形下,能确保分布式数据源数据隐私的分布式在线学习算法,以及此种情形下差分隐私算法的收敛速度优化。对于前者,主要基于生成鲁棒性网络,对于不同的敌对模型优化网络拓扑,从而使得基于拉普拉斯噪声的差分隐私在线学习算法(ε-Differentially Private DOLA)和基于高斯噪声的差分隐私在线学习算法((ε,δ)-Differentially Private DOLA)这两
水下无线传感器网络中定位技术是关键技术之一,只有准确地知道节点的位置信息时,由传感器节点采集的数据才会有效。水下无线传感器网络具有传感器节点稀疏、结构非均匀、节点时钟同步困难和节点难以更换等特点,从而给水下无线传感器网络定位带来困难。网络中节点稀疏和结构不均匀影响网络的通信覆盖,网络通信覆盖是实现网络节点定位的前提。水下传感器节点难以更换且能量有限,低能耗的定位算法更够使节点的能量利用率更高、存活
文本数据具有数据量多和信息量大等特性,是信息抽取中非常重要的数据来源。科研工作者和业界非常关注相关技术的研究,并定义了一些经典的信息抽取任务,如:命名实体识别、关系抽取、属性抽取、事件抽取等。除了经典任务能抽取的信息之外,文本数据中还存在大量的数值信息。这些数值信息的表达?分多样化,对专门的识别和处理数值信息的技术方法带来了挑战。近年来,相关领域有一些关于数值信息的语义角色框架的探索,但对于数值信
吸附剂喷入、催化氧化等方法已被应用于烟气中汞的控制。但是,由于这些方法具有成本高、易产生二次污染以及吸附剂无法循环利用的缺点,寻求更经济有效的汞脱除方法成为目前的
显著物体检测通过模仿人类视觉注意机制能够快速提取图像中显著区域的能力,使得计算机能够准确快速的定位图像中感兴趣的区域进行处理。但是现在基于深度学习的显著性检测算法存在对图像特征利用不充分的问题,本文从网络提取到的高低级特征信息互补的方面出发来提高显著性检测的性能。另外将显著性检测应用于图像识别中:首先,显著物体检测获得图像的显著图,再通过显著图对图像进行分割提取出图像的显著区域部分,最后对图像的显
本文利用2001-2017年ERA5再分析资料、CERES卫星资料和MODIS资料,探究夏季中国不同类型云的云量、光学厚度及云水路径的时空变化特征,并利用一维辐射对流模式定量分析不同类型云对近地表气温的影响。最后结合ISCCP资料和CMIP5的模式数据,得到不同外辐射强迫下的总云量变化,并初步分析了总云量对外辐射强迫的响应。主要结论如下:(1)2001-2017年夏季中国总云量、高云量均由南到北逐
中国的山地面积占国土面积的百分之七十以上,随着经济的快速发展,城市化日益严重,可开发利用的土地紧缺,山地的使用开发成为解决土地使用紧缺问题的上上之策。在山地的建设过程中,不仅存在自然形成的滑坡现象,不合理的人类干预活动也常常诱发滑坡。目前我国开展了大量的滑坡治理工作,保护了当地许多居民的生命和财产安全,但治理后的滑坡能否进一步的开发利用,特别是滑坡治理后是否能修建居民小区,成为许多科研工作者面临的
陶瓷基复合材料(Ceramic matrix composites,CMCs)是新一代航空发动机热端部件的主要候选材料。服役过程中,CMCs受到水蒸气和熔盐等环境介质的腐蚀,导致其力学性能显著下降。CMCs表面制备环境障碍涂层(Environmental barrier coatings,EBCs)可以有效提高其环境耐久性。稀土硅酸盐具有低热导率、与CMCs相匹配的热膨胀系数、优异的相稳定性等特点
网络意见领袖指的是依托互联网平台发表自己对于当前社会热议问题的意见与看法,并且这一意见或看法得到大部分网民的高度认同,进而形成一股强烈的网络舆论,对其他网民对事件的看法产生较大程度影响的网络信息发布者。伴随着互联网发展而成长起来的“90后”大学生们已经率先与新时代融合,他们深受网络意见领袖的影响。为了深入了解现阶段对我国大学生思想有重大影响的网络意见领袖究竟是什么人,本文根据三大网络热点事件以及问
我国实行商标注册主义,但在注册制度实施之前,商标就已广泛使用。部分在先使用的未注册商标通过宣传、经营,取得了一定的知名度,具有公信力。若不保护其权益,显然与公平正义原则相悖。所以在注册制度之下,在先使用的商标仍应受到保护,但是这种保护是限制性的,不能冲击注册制度的根本。2013年《中华人民共和国商标法》第三次修订才在第五十九条第三款中明确保护在先使用人的权利。然而该条款的规定模糊,导致实践中同案不