基于半监督递归自动编码的微博情感分析方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gz20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和智能移动通讯设备的普及化,微博凭借其简捷性和开放性得到迅速发展,成为网民在互联网上获取信息、表达观点、在线交友的重要媒介。微博以内容的即时性、传播的广泛性以及强大的交互特性改变了传统网民交流模式,成为了真实社会的网络传感器。研究微博网民对社会热点事件的情感、观点对把握网络舆情态势,进行及时的舆论引导具有重要作用。本文以新浪微博为例,针对微博热门主题,从数据获取、文本情感分类、热门主题情感分析的三个方面做了以下工作:1)设计和实现了基于混合策略的新浪微博热门主题数据主动采集爬行器。通过分析新浪微博热门主题数据的特点,本文设计了采用页面解析与新浪微博API相结合的数据采集方法,克服了新浪微博在登录、动态网页和访问频次三个方面对数据采集的限制,并采用JAVA与Mysql数据库结合的框架构建了新浪微博热门主题数据的采集器,实现了新浪微博热门主题数据的持续主动采集。2)研究了基于半监督递归自动编码的微博文本情感分类方法。本文根据微博短文本、口语化的特点,首先将能够较好抓住句子结构特征的半监督递归自动编码算法用于中文微博情感分类,在多个数据集上较基于支持向量机的文本情感分类方法取得了更好效果。在此基础上本文提出递归自动编码训练的半监督化,通过大量的无监督数据进行特征学习,利用学习的特征进行监督的训练,提高了分类器的分类效果与普适性。3)聚焦新浪微博热门主题进行了微博情感分析。本文针对采集得到的新浪微博热门主题,利用基于半监督递归自动编码的文本情感分类方法进行中立、正面、负面情感三分类,在此基础上分析了新浪微博各类别热门主题的情感分布以及极端负面情感主题的分布情况,发现在大多数热门主题中网民针对主题的情感是偏向正面的,在娱乐、技术、体育类热门主题中仅有少量造成网民负面情感的主题,网民对社会事件和政府相关的大多数社会类主题呈负面的情感,并且极端负面情感主要集中于社会事件,特别是政府相关的社会事件。最后本文以柯震东房祖名吸毒事件为案例进行了多主题关联与情感演化分析。综上所述,本文围绕微博情感分析,研究了基于页面解析与微博API相结合的数据采集和基于半监督递归自动编码的微博文本情感分类方法等关键技术,并聚焦新浪微博热门主题进行了微博情感分析,对舆情的态势分析和引导具有重要意义。
其他文献
商品缺货现象指消费者无法在预定货架找到所需商品,而该商品又包含在零售商的商品目录内的状况.在国内零售业中通常也被称作"断货".在西方发达国家,缺货问题和缺货研究一直是
该文运用管理学、文化学、教育学的知识和文献法、对比法、调查分析法等研究方法,研究分析了大学形象的内涵和构建理论.首先,该文研究了大学形象的含义、特征及结构,并分析了
网络是由大量相互作用、相关关系的网络单元组成的。这些网络组成单元往往是异质性的,不同异质性的网络单元在网络中承担着不同的功能,具有不同的抗毁性。异质网络抗毁性研究
随着互联网技术的迅猛发展,网络己成为人们获取信息的重要来源,越来越多的网民通过各种渠道发表对社会事件、公众人物、产品等的意见和评论。通过分析和挖掘这些海量的评论资
供应链以及集成化供应链的概念 从建模的角度看,多级集成化供应链的设计和分析模型可以分为3类,即确定型分析模型(变量已知且是确定的)、随机分析模型(变量未知但假设服从某
本文在前人研究的基础上,对我国第三方物流公司迫切需要面对的这一问题做一些探索,以期为中国的第三方物流公司找到一个可行的仓库网络布局的方案。本文具体内容如下: 通过对第