基于Twitter的情感分析相关问题研究

被引量 : 14次 | 上传用户:zb_lion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网和移动网络的迅猛发展,社交网络平台也得到了迅速的发展。用户通过互联网主动生成文本信息,这一举动标志着人们已经不再是互联网中单纯的受众,而是成为了互联网的一部分。微博平台的可移动性,内容的共享性、简洁性和实时性使得微博已经成为了大多数网民日常生活中不可缺少的交流互动的社交网络,广大用户有了发表自己意见的空间和自由。这些带有主观色彩的言论或评价可以是普通用户的心情信息、网络消费者的购买意向、影迷对电影的喜好、网民对政府管理部门发布的政策和法规的意见等,如何从这些海量的非结构化的短文本信息中获取有价值的内容已成为目前亟待解决的问题。社交网络的火热流行带动了一个新的研究领域的诞生,那就是针对微博的情感分析。这一领域继承了文本情感分析的特点,它从微博文本的情感表达入手对其情感倾向性进行分析,分析的最终结果是将微博情感分为正面和负面,或者是正面、中性和负面,这样研究者就可以清楚的知道文本信息所表达的态度是支持还是反对,并由此做出相应的决策。本文主要研究将传统的文本分类方法应用于微博的情感分类。考虑应用机器学习的方法实现对文本的情感分类,分析Twitter情感分析的关键技术问题,着重于对提高分类精度的过程和方法上进行研究;分析不同的特征选择方法、特征权重计算方法、文本表示方法以及不同的分类器模型的构建对Twitter情感分类精度的影响。本文采用Twitter上的数据作为数据集,使用斯坦福自然语言处理小组研发的词性标注工具对微博文本进行预处理,之后在特征选择算法中选择了文档频数、信息增益和卡方检验三种不同的方法对数据集进行特征选择,采用布尔函数、词频函数和TFIDF(Term Frequency Inverse Document Frequency)三种权重计算方法计算特征集中的特征权重,分类器采用基于监督学习的分类器,分别是朴素贝叶斯和决策树分类器。文中提出了在不同的特征数量和特征权重的情况下,采用不同的分类算法训练分类器,待分类器训练完成后采用测试数据对其进行测试。实验结果表明,在一定的特征数量下,采用朴素贝叶斯、卡方检验和TFIDF的组合形式对Twitter的情感分类效果最好。
其他文献
近些年来,儿童安全问题频出,无论是交通安全、公共设施误伤,或是暴力犯罪事件,儿童作为社会弱势群体承受着来自城市环境的威胁。现代城市在建设中对少年儿童权利和需求的忽视,使儿
近些年来,为了实现对家庭内能源的智能化控制,家庭能源管理系统已经成为研究的热点问题。国内外的部分大型公司已经提出了它们的相关设计产品,并在部分地方进行试点。然而,在我国
首先分析了新型工业化进程中面临的大气污染、水污染和固体废物等环境污染问题,以及自给不足、效率低下等资源稀缺问题,并与发达国家现状进行了对比,然后从产业结构、能源结
中等职业教育是国家职业教育规划中的重要组成部分,进入21世纪以来,随着国家教育部门陆续颁布相关教育文件,提出教育规划,从政策方针上将职业教育摆在更加突出、更加重要的位
逻辑学是海德格尔思想整体的一个重要组成部分,国外对此已经有很多研究成果,但国内研究者还没有出现关于海德格尔逻辑学的专著。本论文立足于海德格尔前期(1912-1935)的逻辑
目的探讨纳米碳混悬液示踪前哨淋巴结(SLN)在早期乳腺癌诊治中的应用效果。方法依据随机数字表法将118例乳腺癌患者分为纳米碳组和对照组,每组59例。对照组使用体积分数为1%
<正>欢迎投稿欢迎订阅期刊简介:《中国农业文摘·农业工程》是教育部主管,中国农业大学主办的国家级农业与农业工程类期刊,是国家新闻出版广电总局首批认定学术期刊。于1989
对GB/T 17530.5-1998测定工业丙烯酸及酯中阻聚剂含量的测量不确定度进行评定。分析了标准物质、分析操作、曲线回归、重复性测定等方面对不确定度的影响。结果表明,曲线回归
2006年,兴业银行从首推能效项目融资业务起步,探索将绿色金融作为战略性业务推进。“植绿”10年,兴业银行绿色金融逐渐“开花结果”。通过搭建集团化绿色融资产品体系,不断落
招商引资的过程实质上就是寻找目标投资者并对当地投资环境与招商项目开展营销传播的过程。要做好招商引资,必须引入现代营销传播理念。首先要做好扎实的市场调研工作,做好招商