【摘 要】
:
目的本文以基于微博的情感分析为研究方向,采用词典与机器学习相结合的方式,提出一种多特征的情感分析方法,以求更客观真实地呈现用户情感,进一步提高微博情感分析的准确率。方法通过对国内外针对情感分析特征选择的研究和情感分析方法的研究,结合微博平台和微博文本内容的特点,完成主题特征、行为特征、文本特征三个特征指标的选取。采用LDA主题识别模型、ROST内容挖掘系统对文本数据的主题特征情感值进行计算,通过微
论文部分内容阅读
目的本文以基于微博的情感分析为研究方向,采用词典与机器学习相结合的方式,提出一种多特征的情感分析方法,以求更客观真实地呈现用户情感,进一步提高微博情感分析的准确率。方法通过对国内外针对情感分析特征选择的研究和情感分析方法的研究,结合微博平台和微博文本内容的特点,完成主题特征、行为特征、文本特征三个特征指标的选取。采用LDA主题识别模型、ROST内容挖掘系统对文本数据的主题特征情感值进行计算,通过微博影响力和点赞数完成行为特征情感值的计算,同时对相关情感词典进行重构与扩充,将其作为情感常量知识库,完成文本特征情感值的计算,进而构建特征集合矩阵。最后,选取机器学习模型训练特征集合矩阵,并引入集成学习的思想,通过多投票算法整合分类结果,选取微博中某一突发事件的微博文本内容为研究对象,进行情感极性的划分。通过准确率、精确率、召回率和F1值对本文所提方法的有效性进行评价。结果(1)在数据获取结果部分,本文依据选定的目标事件,获取微博平台上关于该事件的文本数据,共爬取微博文本数据24904条。(2)在模型构建部分,根据选定的多特征指标,分别计算纳入的主题特征指标情感值,微博影响力和点赞行为特征指标情感值以及文档级、句子级和词语级三层文本特征指标情感值,并以此构建特征集合矩阵。(3)在结果对比部分,将本文选用的SVM、KNN、BP神经网络、随机森林、XGBoost五种机器学习分类方法的识别效果分别进行比较,可知XGBoost模型的准确率为84.52%,精确率为82.57%,召回率为76.95%,F1值为79.66%,在各模型中表现出了较好效果。将纳入单一主题、行为、文本特征的情感分析方法,和纳入了两部分特征的主题+文本特征、行为+文本特征的情感分析方法与本文所提的多特征情感分析方法进行对比,多特征情感分析方法准确率为84.52%、精确率为82.57%、召回率为76.95%、综合指标F1值为79.66%,均优于其他纳入不同特征的情感分析方法的情感极性划分效果。经过多投票算法进行结果整合后的多特征情感分析方法在情感分类结果的准确率、精确率、召回率及F1值等各指标值最高,模型表现出良好的效果。其中,准确率为94.88%,精确率为96.35%,召回率为94.50%,F1值为95.42%,在对文本数据情感极性划分的结果最好。而未整合的多特征情感分析与本文所选用的基线方法——朴素贝叶斯情感分析模型进行对比,也表现出了较为明显的优势。由此可以证明,本文所提出的多特征情感分析方法具有一定的有效性。结论(1)根据微博平台的特点,结合情绪感染理论、网络集群行为等理论,选取了主题特征、行为特征、文本特征多特征指标,提出了一种针对微博文本的多特征情感分析方法,使其能够更好地适应以微博为代表的在线社交媒体平台的情感分析模式。选取微博上的突发事件进行情感分析实证研究,通过将多特征情感分析方法与基线以及纳入不同特征的情感分析方法进行对比,本文所提方法情感极性分类效果较好,证明了本文方法的有效性和优越性。(2)情感分析方法部分采用情感词典与机器学习方法相结合的方法,不同于传统的结合方式,本文通过情感词典的重构和扩充,将情感词典作为情感常量知识库,作为文本特征指标筛选和情感值计算的依据,实现了情感词典和机器学习方法的有机结合。为之后的情感分析方法研究提供了一定的参考。
其他文献
目的以突发公共卫生事件为分类场景,分析影响突发公共卫生事件中网民分类的多种因素,从多个方面综合考虑网民自身特点及其与事件的关系,综合利用网民多种类型的特征,从多个维度分析网民特点,构建一种此场景下的多维细粒度的网民分类模型。方法通过总结国内外网民分类的相关研究,结合网民自身的特点如网民自身的人格特点、兴趣偏好、活跃度等,和具体的分类场景,综合网民与事件的关系、网民在事件中的作用,根据相关理论,确定
随着国家环保力度的不断增强,公民环保意识的逐渐觉醒,众多污染企业面临整改、倒闭。现在人们越来越追求绿色环保,可持续化,而纤维素就是一种可持续性生态友好性的物质。纤维素是地球上已知的最丰富的天然高分子,纤维素纤维是将天然纤维素(如:各种木材,秸秆,草料等)进一步处理后得到的一种纤维素材料,即纤维素纤维,其具有成本低、可再生和可生物降解等优点。因此木浆纤维素已经被广泛应用,如生物医药、光学材料,锂电池
随着物联网技术的发展,物联背景下的商品售卖越来越普及,对商品推荐的需求也越来越强烈。但传统的物联售货模式,存在商品购买过程不方便、管理运维成本高、商品推荐难度大等问题。本文基于上述存在的问题,设计并实现了无人售货系统及其推荐引擎。无人售货系统实现物联售货功能并对商品和自动售货机设备进行统一管理。推荐引擎实现物联背景下的商品推荐,使用户能够准确获取想要的商品。无人售货系统采用前后端分离的设计模式。由
柔性水系锌离子电池具有安全、轻量化等优点,在可穿戴电子设备中有很大的应用潜力。如何制备高柔性水系锌离子电池,并提高其电化学性能,一直是面临的巨大挑战。木浆纤维素纸具有储量丰富、低成本、轻质量、柔性、无污染等特性,能够作为高柔性水系锌离子电池的基底,并且有助于实现水系锌离子电池绿色环保及低成本。本文以木浆纤维素纸作为基底与具有电化学活性的物质制备出复合电极,设计出不同结构的高柔性水系锌离子电池,并探
随着越来越多的室内服务型机器人出现在大众的视野中,机器人在社会各个领域的应用日益扩增,例如扫地机器人等家用型机器人与服务型机器人层出不穷,机器人相关的导航等关键技术也受到了国内外学者的广泛关注。并且随着语音识别、机器学习和人工智能等算法的成熟,将这些技术应用在机器人上也是大势所趋。在室内环境下的自主导航是移动机器人实现多种附加服务功能的基础,如何设计实现一个稳定可靠的室内机器人系统,提高机器人的导
我国于2021年取得了脱贫攻坚战的胜利,并顺利实现了全面建成小康社会第一个百年目标。如今进入到后扶贫时代,我们的主要任务已由"扶贫"转变为巩固脱贫成果、防止脱贫又返贫的发生。因此,构建返贫风险防范机制,对于稳步推进第二个百年目标的进程有重要意义。文章从后扶贫时代返贫风险会出现的原因入手进行分析,提出五方面防范返贫风险的相关建议,即建立返贫预警监测机制、产业稳定实现可持续增收、常态化疫情下防返贫措施
近日,清溢光电在接受投资机构调研时表示,目前合肥清溢的新产能正进入爬坡阶段,产线的设备匹配比较均衡,有利于后续产能开出。合肥清溢的生产制作能力主要针对AMOLED/LTPS等中高端产品。随着涂胶线的投产,预计明年上半年半透膜掩膜版(HTM)产品能通过客户验证并实现量产。据了解清溢光电主要募投项目"合肥清溢光电有限公司8.5代及以下高精度掩膜版项目"系由合肥清溢光电在合肥新站高新技术产业开发区
茉莉花茶因其馥郁鲜灵的花香而受到消费者的青睐。目前,离体茉莉花及花茶窨制过程中挥发性成分的变化趋势与茉莉花释香机理尚未明确。本研究首先以离体茉莉花为材料,观察其开放吐香过程;再以不同工艺窨制过程中的茉莉花及茶坯为研究对象,采用GC-MS绝对定量分析方法,研究了茉莉花及茶坯挥发性成分含量的动态变化;最后采用分子生物学分析手段,探究与香气释放相关的四种酶(SAMT、HGMR、PAL、FPPS)的活性及
目前,移动互联环境下累积了海量短文本数据(如微博、评论、搜索查询、客服问答等),其中蕴含丰富语义知识,但文本海量化造成了“数据泛滥,知识匮乏”的窘境。因而,对海量短文本数据进行语义解析建模(如特征抽取、模式匹配)与分类以发现数据中存在的隐式关联及依赖关系,从而识别出最终可被人为理解的高层语义知识是极具研究价值和商业价值的课题。但通常,短文本受限于长度因素,其具有词频共现度低、语言不规范、上下文依赖