论文部分内容阅读
随着互联网的高速发展与公众的自我表现意识提高,微博等自媒体平台应运而生。公众普遍喜欢通过微博等平台获取资讯、发现新鲜事,并发布评论来表达自己的观点。微博评论文本具有长度简短、格式不固定、包含的信息量较少但产生速度快等特点,这些信息中蕴含了大众的情感倾向性。本文将融合微博文本采集、群体计算、Spark并行化和半监督协同训练等技术,来研究基于协同训练的微博情感分类问题。本文首先分别研究基于微博API的微博文本采集方法与基于爬虫的微博文本采集方法,然后利用爬虫来获取半监督协同训练分类算法的训练与测试数据集,并通过引入群体计算系统模型提出了一种新的协同训练分类模型,最后,完成了协同训练算法在Spark平台上的并行化实现。具体说来,本文的主要研究内容如下:第一,对微博情感分类研究的背景与意义和国内外研究现状进行了介绍。第二,使用微博文本采集的两种方法来进行微博数据的采集,一种是基于微博API的微博文本采集方法,另一种是基于爬虫的文本采集方法,并对这两种方法进行了实验对比。同时介绍了中文分词方法、文本向量表示与情感特征权重计算这三种中文微博文本预处理方法。第三,对基于协同训练的微博情感分类模型进行改进。针对半监督协同训练算法在微博情感分类时未标注样本多、易引入噪声样本数据的不足,通过引入群体计算系统模型,提出了一种新的协同训练分类模型。实验表明,引入群体计算系统模型的微博情感分类模型的分类准确率有所提高。第四,为提高微博情感分类效率,对协同训练算法进行改进,将情感分类预处理和协同训练算法中使用的两种分类器算法即支持向量机(SVM)和朴素贝叶斯算法在Spark平台实现并行化。实验表明,引入Spark平台后,并行执行的协同训练算法在加速比、规模比和可扩展比等指标方面均有较好的表现。