论文部分内容阅读
随着互联网技术的飞速发展和智能移动通讯设备的普及化,微博凭借其简捷性和开放性得到迅速发展,成为网民在互联网上获取信息、表达观点、在线交友的重要媒介。微博以内容的即时性、传播的广泛性以及强大的交互特性改变了传统网民交流模式,成为了真实社会的网络传感器。研究微博网民对社会热点事件的情感、观点对把握网络舆情态势,进行及时的舆论引导具有重要作用。本文以新浪微博为例,针对微博热门主题,从数据获取、文本情感分类、热门主题情感分析的三个方面做了以下工作:1)设计和实现了基于混合策略的新浪微博热门主题数据主动采集爬行器。通过分析新浪微博热门主题数据的特点,本文设计了采用页面解析与新浪微博API相结合的数据采集方法,克服了新浪微博在登录、动态网页和访问频次三个方面对数据采集的限制,并采用JAVA与Mysql数据库结合的框架构建了新浪微博热门主题数据的采集器,实现了新浪微博热门主题数据的持续主动采集。2)研究了基于半监督递归自动编码的微博文本情感分类方法。本文根据微博短文本、口语化的特点,首先将能够较好抓住句子结构特征的半监督递归自动编码算法用于中文微博情感分类,在多个数据集上较基于支持向量机的文本情感分类方法取得了更好效果。在此基础上本文提出递归自动编码训练的半监督化,通过大量的无监督数据进行特征学习,利用学习的特征进行监督的训练,提高了分类器的分类效果与普适性。3)聚焦新浪微博热门主题进行了微博情感分析。本文针对采集得到的新浪微博热门主题,利用基于半监督递归自动编码的文本情感分类方法进行中立、正面、负面情感三分类,在此基础上分析了新浪微博各类别热门主题的情感分布以及极端负面情感主题的分布情况,发现在大多数热门主题中网民针对主题的情感是偏向正面的,在娱乐、技术、体育类热门主题中仅有少量造成网民负面情感的主题,网民对社会事件和政府相关的大多数社会类主题呈负面的情感,并且极端负面情感主要集中于社会事件,特别是政府相关的社会事件。最后本文以柯震东房祖名吸毒事件为案例进行了多主题关联与情感演化分析。综上所述,本文围绕微博情感分析,研究了基于页面解析与微博API相结合的数据采集和基于半监督递归自动编码的微博文本情感分类方法等关键技术,并聚焦新浪微博热门主题进行了微博情感分析,对舆情的态势分析和引导具有重要意义。