基于协同训练的微博情感分类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:a13058002542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展与公众的自我表现意识提高,微博等自媒体平台应运而生。公众普遍喜欢通过微博等平台获取资讯、发现新鲜事,并发布评论来表达自己的观点。微博评论文本具有长度简短、格式不固定、包含的信息量较少但产生速度快等特点,这些信息中蕴含了大众的情感倾向性。本文将融合微博文本采集、群体计算、Spark并行化和半监督协同训练等技术,来研究基于协同训练的微博情感分类问题。本文首先分别研究基于微博API的微博文本采集方法与基于爬虫的微博文本采集方法,然后利用爬虫来获取半监督协同训练分类算法的训练与测试数据集,并通过引入群体计算系统模型提出了一种新的协同训练分类模型,最后,完成了协同训练算法在Spark平台上的并行化实现。具体说来,本文的主要研究内容如下:第一,对微博情感分类研究的背景与意义和国内外研究现状进行了介绍。第二,使用微博文本采集的两种方法来进行微博数据的采集,一种是基于微博API的微博文本采集方法,另一种是基于爬虫的文本采集方法,并对这两种方法进行了实验对比。同时介绍了中文分词方法、文本向量表示与情感特征权重计算这三种中文微博文本预处理方法。第三,对基于协同训练的微博情感分类模型进行改进。针对半监督协同训练算法在微博情感分类时未标注样本多、易引入噪声样本数据的不足,通过引入群体计算系统模型,提出了一种新的协同训练分类模型。实验表明,引入群体计算系统模型的微博情感分类模型的分类准确率有所提高。第四,为提高微博情感分类效率,对协同训练算法进行改进,将情感分类预处理和协同训练算法中使用的两种分类器算法即支持向量机(SVM)和朴素贝叶斯算法在Spark平台实现并行化。实验表明,引入Spark平台后,并行执行的协同训练算法在加速比、规模比和可扩展比等指标方面均有较好的表现。
其他文献
在网络时代的今天,不同类型、不同内容、不同结构的网站浩如烟海,而网站建设所面临的一个主要问题是:如果能够深入了解用户的浏览兴趣和浏览习惯,预测用户的浏览路径,就可以
学位
随着互联网的飞速发展与数码电子设备的普及,人们对信息的检索方式从最单一的关键字搜索发展到图像检索、音频视频等多媒体信息的检索。现在人们对互联网信息检索的需求不断增
面向服务计算(Service-Oriented Computing,SOC)代表着分布式计算和软件开发的最新发展方向。Web服务组合技术为Web服务的重用以及增值提供了解决方案,是SOC的核心技术之一。BP
近几年,随着变频电动机在工业领域的广泛应用,如何能够及时检测变频机的工作状态,发现可能出现的故障,并在第一时间解决问题,就显得尤为重要。论文通过对变频电动机工作原理及其早期故障发生机理的分析,根据故障检测要求,设计了基于DSP的变频机故障检测的总体方案,完成了信号采集、放大、A/D转换、锁相倍频等数据采集电路和SRAM及FLASH存储器扩展、UART异步通信、液晶显示、微型打印机输出、工作状态指示
伴随着各类数字终端的出现,同一电子图像在不同规格屏幕上显示的情况会更多的出现,这就要用到图像缩放。图像缩放是一种图像处理技术,它可以依据图像显示设备的屏幕尺寸,适当
近年来,由于终端用户资源的丰富,以及网络带宽的快速增加,传统的C/S(Client/Server)架构的网络应用模式中服务器性能瓶颈和单点失效的问题限制了资源的应用,同时也无法满足新的分布
近几十年来,人脸识别技术已发展成为模式识别领域的一个研究热点,其在身份鉴别、档案管理、信用卡验证、人机交互等方面有着广泛的应用前景。人脸识别技术中一个关键难点在于如