论文部分内容阅读
互联网技术的不断进步,导致人们的交流方式随之发生改变,大量的网络社交平台应运而生,其中,微博毫无疑问占据重要地位。微博,以它的及时、自主和极强的互动性等特点,区别于传统媒体,在新时代的互联网大潮中得到了迅速的发展。目前,微博已经成为大众化的互联网舆论平台,是互联网用户发布分享信息的重要途经。而正是因为微博极强的互动性、自主性和快速性,导致其舆情事件的爆发往往类似于传染病毒的扩散爆发,这给舆情的监控带来了巨大的挑战。本文面向微博舆情的实时监控问题,主要针对情感分析和用户影响力分析两大问题开展研究。首先针对情感分类问题,本文提出了基于集成学习的情感分类算法。该算法首先利用微博爬虫爬取目标相关微博信息,获得原始数据。然后对原始数据进行分词,去除停用词等预处理,再利用TF-IDF方法提取特征向量,并使用SVD方法对特征向量进行降维,最后使用Stacking集成策略集合五个基础分类器构成情感分类模型对数据进行情感分类判别。之后针对用户影响力分析问题,提出了基于Page Rank和HITS的影响力分析算法,在该算法中,首先利用微博爬虫爬取目标微博用户关系网络,分别用Page Rank算法和HITS算法对复杂网络进行计算,计算其中的节点影响力,得到的PageRank,Hub和Authority值组成特征向量,再利用RankSVM算法对节点进行影响力排序,得到最终的用户影响力大小。然后结合情感分析和用户影响力分析,借用热量模型的概念,提出了基于热量模型的舆情分析方法,并通过多种实验对比,证明舆情分析方法的有效性和及时性。在文章的最后对本文的工作进行了总结,并对下一步的工作进行了展望。