社会媒体的话题自适应情感分类

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:naonao19890925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会媒体的日渐繁荣,人们越来越多的在不同的社交网站上分享生活中的感受。简短的社会媒体内容包含了巨大的商业价值,因此,对社会媒体的情感分析越来越重要。面向社会媒体的情感分类模型面临着缺少标注的训练数据、话题多样性并不可预知的问题。此外,情感分类与情感表达的目标话题有很强的依赖,主要表现在不同的话题使用的情感词,以及情感词表达的倾向性会存在很大差别。另一方面,面向开放的大规模社会媒体数据,情感分类模型的训练效果很难评价。  为了解决以上问题,本文的主要贡献如下:  1.基于话题相关情感词特征的话题自适应情感分类模型。情感分类模型的话题依赖性体现在模型利用的情感词特征与目标话题密切相关。因此,本文提出利用半监督的模型学习话题相关情感词特征,得到话题自适应情感分类。首先利用初始的公共情感词以及少量的标注数据,构建话题通用情感分类器。其次,针对目标话题领域的社会媒体数据集,协同半监督地利用非标注数据进行学习,并基于语法依赖树及规则自动抽取目标话题相关的情感词。随着模型的迭代训练,逐渐引入目标话题相关情感词、估计其权重,实现情感分类模型话题自适应的学习过程。通过对包含6个话题的数据集实验,结果表明,基于话题相关情感词特征的话题自适应情感分类模型,与传统的分类算法相比,精确度有了显著性提高。  2.考虑用户及社会网络特征的目标话题自适应情感分类模型。对当前已有的数据集进行统计分析,发现在社会媒体的某一个固定话题中,用户的情感倾向具有一致性,与此同时,具有提及关系的用户具有情感趋同性。因此,本文提出了社会网络相关特征,构建考虑用户及社会网络特征的目标话题自适应情感分类模型。在半监督的学习过程中,动态更新的用户及社会网络特征可以进一步帮助模型更好的选择话题相关的未标注训练数据,从而间接地影响模型自适应话题情感词特征的效果。通过实验对比,发现新模型的精确度、F值要明显高于传统的分类算法,以及只考虑目标话题相关情感词的话题自适应情感分类模型。与此同时,针对社会媒体的实时性特点,本文提出了目标话题动态自适应的情感分类模型。实验结果表明,动态自适应情感分类器的平均精确度也有很大的提高。  3.针对大规模社会媒体开放测试数据,本文基于Spark分布式计算平台,设计出一种并行多类情感分类算法。在开放的大规模推特数据集进行实验,利用表情符作为模型训练的评价依据,与MSVM和COMSVM两个常用有监督和非监督的情感分类算法相比,本文提出的方法在精确度和F值上都取得了显著性提高。
其他文献
学位
本文主要研究了如何基于TCL语言开发脚本程序,从而对三层交换机网络协议功能进行测试。三层交换机技术的出现使IP网络成为更加经济的网络连接方式,它具备路由器所具有的路由
随着硬件技术的不断革新,硬件平台的处理能力不断增强,硬件成本不断下降,嵌入式软件已成为产品的数字化改造、智能化增值的关键性、带动性技术,嵌入式软件开发在软件领域的比重越
随着大数据时代的来临,网络数据呈现爆炸式增长趋势。如何从海量的网络数据中快速高效获取知识信息成为了网络数据时代亟需解决的问题。在众多知识获取的方法中,构建领域知识库
干涉合成孔径雷达(In-SAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEM
学位
InSAR是近几十年来发展起来的一项新的遥感技术。它作为传统的SAR技术和干涉技术相结合的产物,利用相干雷达信号的相位作为除幅度以外的额外信息源,能够全天时、全天候获取大
学位
随着多媒体信息处理技术的飞速发展,多媒体应用不断呈现普适化的趋势。图像和视频数据大量涌现,特别是移动互联网以及无线传感器网络越来越发达,用户对于图像和视频等视觉数据的
随着因特网的发展,Web已经成为人们获取信息的一个重要来源.如何实现Web信息的集成是当前信息领域的一个热点研究问题.本文围绕Web信息集成从Web信息提取,Web对象版本权威性
近年来,WAP移动网络设备技术高速发展,终端功能不断的强大,移动网络也在迅速增强,越来越多的人使用它们访问网络来获取所需信息资源。但由于这些设备多样化、处理能力弱和具
移动位置服务(LBS--Location Based Service)又称定位服务,是通过通信网络获取移动终端用户的位置信息(经纬度坐标),在电子地图平台的支持下,为用户提供相应服务的一种增值业