中文微博情感分析技术研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:lisanshuxuejj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,市面上涌现出了许多的优秀互联网应用,其中也包括微博这样具有社交性质的互联网应用。微博以其开放性、原创性、便捷性、草根性和背对脸等特点,在极短的时间内吸引了庞大的用户群体,成为了用户们最喜爱发声的“地区”之一。大数据时代的到来让人们逐渐发现了海量微博数据中存在的潜在价值,通过微博来了解用户们对当前话题所产生的情感,随即成为众多学者所追求的热点。微博情感分析主要是对微博的情感倾向进行判别,判别方法主要有基于机器学习的方法和基于情感词典的方法,这两种方法在文中均有所涉及。本文从扩充情感词典和改进情感分类方法两个方面进行了深入研究,主要工作内容如下:(1)通过制定数据降噪规则,扩充分词工具的用户自定义词库,去除停用词等步骤完成微博数据的预处理。利用投票机制和优先权机制对知网情感词典、台湾大学中文情感极性词典和大连理工大学中文情感词汇本体库进行整合,构建了基础情感词典。(2)在词典的扩充方面,本文在基于词向量的情感词典扩充方法中加入人工智能领域中常用的基于案例推理的思想,提出了C-word2vec模型。原始的word2vec模型在整个新情感词的识别过程中使用的基础情感词典是没有任何改变的,而C-word2vec模型会把新识别出的情感词加入基础情感词典,提高了情感词识别的召回率。(3)在规则的制定方面,本文综合考虑了否定词、程度副词和表情对微博情感分类的影响,制定了相应的情感打分规则。实验结果表明,考虑了规则的方法比没有考虑规则的方法准确率更高。(4)在基于机器学习情感分类方法的框架下,引入了情感词典和规则,提出了综合的情感分类方法。该方法让特征的提取不在局限于已经标注好的数据集,同时能够在提取到的特征中保留更多的词间语义。文本使用该方法在微博数据集上进行了验证,证明了其有效性和可行性。
其他文献
流场中的螺旋结构是一种非常有趣的现象。螺旋流因其具有较大的涡量和动能,在流动中起着重要的作用,而一直受到科学工作者的重视。螺旋流的理论在越来越多的领域得到了应用。本
利用网络调查法与文献分析法,对美国图书馆员协会发布的《新国立学校图书馆标准》进行了研究与解析,分析了《新国立学校图书馆标准》建立的背景、框架结构、内容及运作模式等
杭州刚刚落幕的文化创意产业博览会,在海内外又一次掀起了文创热的大潮。针对这一现象,本文以文化创意产业博览会为关注重点,对杭州城市文创品牌的商业模式进行探析和研究。
清代《說文》學發展到鼎盛時期,以“說文四大家”爲最。後代學者多重視鼎盛時期的大家名作,而忽略清代晚期一些學者有價值的著作。吳錦章的《字學尋源》就是一部頗有文字學價值的著作,但長期以來少有學者對该書進行研究。《字學尋源》既是一部“說文”學著作,也是一部字源學著作。本文以此書爲研究對象,深入分析作者、體例以及內容等問題。文章主要分為六个部分。第一章緒論。主要介紹了作者吳錦章和《字學尋源》其書、寫作目的
利用火棉胶改进出血组织的制片方法陈怀芳,汪德文法医学系法医病理学教研室关键词火棉胶;石蜡切片在法医病理教学、科研及案例尸检中对于一些点片状出血和灶状出血组织需做病理
近年来,旅游酒店业发展迅猛,作为服务业的重要组成部分,旅游酒店业在消费市场上扮演者不容小觑的重要角色,它不断扩大国内节假日消费,成为拉动内需的必要经济增长点。然而,在
为研究煤矿开采底板突水预警准则,研发水害监测预警技术,实现底板突水超前预警,采用矿井水文地质分析、力学分析、地球物理勘探等技术手段,分析了矿井底板突水征兆,建立了监
随着CMOS工艺的不断发展,数字电路的性能得到提升,模拟电路的设计却遇到了诸多挑战。由于数字电路在时间域中有着很高的分辨率,渐渐地,研究者们将目光转向时间域信号,高性能
近红外光谱技术作为一种光谱测量技术,其特点是分析简单、速度快并且可以在线进行,常用于食品、工艺中间体和最终产品的成分与功能分析,已成为食品质量和安全分析的有力技术
随着我国经济的迅速发展,特别是商品房的热销,房价持续上涨,越来越多的人将买卖房屋当成一种投资理财的手段。而因政府限购等原因,“借名买房”行为开始出现,借名买房问题由于特殊的权利结构,导致现实中出现越来越多的纠纷,理论界围绕借名买房相关问题的探讨也越来越多。笔者从借名买房的基础理论入手,拟对借名买房行为作综合分析探讨。文章分为四个部分。第一部分为绪论部分,该部分对借名买房问题的研究背景等作简要分析。