基于情感词典的中文微博情感分析研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:qq669783
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,计算机网络技术发展之势迅猛,互联网诚然已是当代生活的信息媒介,网络在线文档随之成了人们日常生活中的关键信息渠道,而微博(Microblog)即是当中最具影响力的媒介之一。作为一种新的传播载体,微博广受大众推崇。其中,这些观点中隐含的内在信息,可用来辅助微博营销、商家宣传、客户关系管理乃至政府层面的舆情监督等工作。因此,最近几年的时间里,许多学者投入到情感分析的研究工作中。其中在国内,以新浪微博为代表的微博客,主要采用中文符号,中文句法结构,语义表达的不同丰富了中文微博内容的表现形式,同时为其情感分析带来了一定的难度。鉴于此,国内关于中文微博的情感研究工作开始盛行。情感分析具体指以微博文本为载体的用户将要表达的情感状态,一般指二分类的层次划分,即消极,积极。其中相关词典构建以及具体倾向识别是微博语料情感分析的重要部分。首先本文进行了网络用语词典的构建任务。为实现该目标,该文一方面过滤并整理现有的词典资源,产生了基础词典;另一方面着重完成网络情感词典的扩建。针对微博训练的标注性差异,本文分别提出了基于自启状态机的标注语料的CHI-Order算法以及无需人工标注微博实验语料的CO-PMI方法。通过对微博语料进行实验,获得网络情感词语,依次采用CHI和PMI计算上述词的具体情感以及力度,阈值的设置实验完成了有效情感词的合理选取,最终完成了中文情感词典资源的构建工作。最后,本文设计实验进行情感词典有效性验证。实验数据采用COAE评测微博语料,实验验证了本文方法的可行性。实验结果表明:CHI-Order和CO-PMI算法的准确率分别为81.89%,74.14%,均取得了较好的分析效果。此外,在微博情感倾向识别部分,本文主要基于上文已构的词典集对微博语料展开情感分析的工作。为了提高微博情感识别的准确率,本文后续提出了基于句间关系的规则式计算方法,除了基本词汇、词性特征、表情符等特征的影响,该方法充分考虑到连词特征,句子特征对情感表达的作用效果。实验表明,该方法取得的分析均值为80.49%,实验效果高于贝叶斯学习模型。
其他文献
通过问卷,访谈,走访等多种调研方法,调研了港口与航运管理专业目前的就业环境(即企业用人需求情况),在校生就业意愿和往届毕业生的就业质量,在此基础上综合分析了该专业目前的
传统K—means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K—means聚类算法GKA,将K—means算法的局部寻优能
目的探讨医学生人格特质与心理健康水平之间的相关性。方法采用分层整群抽样的方法,对潍坊医学院972名大学生进行艾森克人格问卷简式量表(EPQ-RSC)及一般健康问卷(GHQ-20)调
随着新课改的推行,新的教育教学理念正积极地在课堂教学中实践和体验。近年来,我校数学教研组尝试借助学案导学,分层次、有梯度地开展教学,符合西藏学生实际并使之真正落到实处,从
报纸
本文以MATLAB编程演示液化石油气中丙烷气体PR状态方程为例,说明了MATLAB在《燃气输配》教学中的应用,不但可以简化计算过程,还可以直观演示出丙烷气体指定温度、压力或摩尔
管理模式直接影响到管理的效率和质量。海豚式管理是继鲨鱼式、戛裨鱼式之后出现的一种新的管理模式,是面向21世纪的管理模式。一、海豚式管理的基本描述科学家对海豚的评价是:富
《先驱》半月刊是中国社会主义青年团的“第一份”机关刊物。该刊在批判错误思潮,宣传马克思主义,寻找解决中国革命实际问题的方法,探寻青年团建设途径等方面产生了很大影响,
上世纪80年代末,智能建筑在我国起步,但真正形成规模是在90年代中期,一些国际上有关智能建筑的先进产品和品牌先后进入我国,带来了最新的技术和产品,智能建筑得以迅速发展起来。本
课内实验教学为理论教学服务,课内实验教学可以促进学生更好地理解、吸收和运用理论知识。以提高课内实验教学效果为出发点,针对课内实验教学的优点与不足,运用雨课堂教学方
针对城镇污水处理厂一级A标准提标改造工程中应用的初沉发酵池和悬浮填料新技术,从设置条件、技术特征、设计要点及运行控制要求方面进行了简介,并结合某污水处理厂提标改造工