短文本情感倾向性分析算法研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:zjs999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术日新月异的更迭与发展,越来越多的网络社交平台开始在普通民众的生活中占据重要的分量。网络的发展为人们生活带来便利,拓宽了人们的视野,也构建出一个新型的社交空间和社交模式。现在,人们通过新浪微博等平台积极参与互动,发表见解。对时事的讨论,新浪微博已经发展众多网民网络生活的重要阵地。在进行网络活动的过程中,人们发布的微博,回复的内容,转发的评论等文字载体都是人们情感倾向的具象化表现,对这些文本进行情感倾向性分析对政府部门把控当前舆论主流,制定相关政策有很大帮助,企业也可以通过相关评论调整经营策略。本文即是面向新浪微博热点事件进行情感倾向性分析研究。传统的情感倾向性分析一般利用情感词典或是通过机器学习对文本进行情感倾向性的分类判别,在情感分类精度上存在不足,缺陷很明显。本文对这两种方法进行相应的改进,并综合二者进行新浪微博热点事件的情感倾向性分析,相关的改进内容如下:1)数据获取方式。新浪微博在其开发者平台提供了 API接口,但考虑到API接口数据获取速度太慢,并且对数据获取量有限制,本文增加了爬虫方式进行新浪微博文本的获取渠道。2)基于词典的情感倾向性分析。本文首先选取了目前主流的中文情感词典集,对情感词汇进行合并。考虑到网络词汇的发展导致“旧词新意”现象,本文通过统计典型网络语句对一些情感词的情感倾向进行修正。在网络语句中,一些无结构的词汇常常具有重要的情感信息,本文整理了典型的网络新词用于网络语句的情感判别。同时,引入了EMOJI表情词典,实现了带表情符号的短文本情感倾向性判别。.考虑到词汇需要更新,本文通过Word2vec中的Skim-gram模型进行词的向量表达,计算词汇相似性的同时,利用SO-PMI算法计算候选情感词与基准情感词之间的点互信息,最终进行词汇的扩充。3)基于机器学习的情感倾向性分析。本文利用FastText模型与基础分类器结合的方法极性情感倾向的判别。FastText模型具有词向量表达功能,同时还保留了词汇位置关系信息,引入情感词汇的位置权重可以进一步的提升情感准确率。本文以最近邻分类算法为蓝本,提出了一种增加K值内密度均值与类-心距离为权重的IDBKnn算法。利用标准Iris Dataset,对IDBKnn和其他分类算法进行比较,验证了其优秀的分类性能。4)最后在实现微博短文本情感倾向性分析过程中,利用扩展的词典集,对短文本进行情感倾向的一次判别,将情感倾向明显的文本选作训练集进行模型训练。训练后的分类模型再对模糊情感文本进行二次判别。通过上述研究及改进方法,完成了相关对比实验,实验结果也验证了,结合情感词典与机器学习的情感倾向性分析模型比单一的情感判别具有更高的准确率。
其他文献
白酒消费的本质是什么,答案各有不同,山东红太阳酒业有限公司总经理兼销售公司总经理任志刚的答案很简单,那就是让消费者喝得越来越享受。这种享受不仅仅是口感上的享受,还应该从
报纸
由于局域网的单个网段最大距离以及使用中继器的个数有限制 ,所以局域网最大可连接距离有上限。应此距离在 1公里到几公里范围内的连接是比较麻烦的事 ,如果使用光纤则效益很
沈周在其平淡儒雅的家庭环境熏陶下,早年师承父辈、杜琼和刘珏,受王蒙影响较大;中年则转向黄公望、倪瓒、吴镇,且上溯董、巨同时借鉴马远、夏圭;晚年醉心于吴镇兼及二米,一生
通过对西部某省义务教育阶段城乡学校均衡发展现状的调研,获得了大量第一手真实可靠的数据;通过对数据的统计分析,寻找城乡学校发展不均衡的深层次原因,提出破解均衡发展难题
本文主要研究求解大规模无约束优化问题的非线性共轭梯度法,分别就修正的DY方法、修正的HS方法、在两种新的非单调Armijo型线搜索下PRP方法、CD方法和LS方法的全局收敛性进行
“双十一”期间,香港某知名富商一周之内豪掷7亿元购买两颗大克拉彩钻的新闻登上各大娱乐版头条。而据媒体此前报道,汪峰向章子怡求婚时送上的则是一枚镶嵌9克拉红钻的戒指。近
报纸
我国的资源税法律制度自新中国成立以来大致经历了四个阶段现已趋于完善。经济、社会和环境是息息相关的,经济的发展不能以牺牲环境为前提,各种自然资源的利用也应受到法律的
目的:探讨经皮内镜椎间孔入路微创术应用于复发性腰椎间盘突出症治疗中的临床疗效及安全性。方法:2015-01~2015-12采取经皮内镜椎间孔入路微创治疗复发性腰椎间盘突出症患者3
由于移动互联网的迅速发展,物流行业传统的服务模式已经不能满足客户的需求。物流服务在互联网技术的运用方面并不成熟,物流行业的客户体验以及沟通成本等都不够完善。目前,
目的利用噬菌体展示技术筛选卵巢癌细胞HO-8910表面特异性结合肽.方法利用噬菌体展示技术筛选卵巢癌细胞株HO-8910,经过3轮生物淘洗,随机挑选21个噬菌体单克隆进行ELISA试验,