基于主动学习和协同学习的中文微博情感极性分析的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:BB8120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展,特别是Web2.0技术的突飞猛进,使得用户成为互联网的制造者和管理者。微博,作为一种新型的社交网络平台备受用户的青睐,日益走进了普通网民的生活。用户通过微博平台分享观点,表达自己的体验和情感,这种方式产生的带有情感色彩和情感倾向的文本信息呈指数级增长。通过对这些带有主观色彩的微博进行情感极性分析研究,来了解大众的情感指数和对某件事情或产品的看法,有助于舆情监控、事件预测和商业竞争情报分析等应用的实现。目前,已有学者在微博情感极性分析研究领域做出了许多探索,但大多数集中在英文微博上,由于中文微博存在长度较短、主题广泛、表达口语化的特点以及微博数据量巨大不易标注。基于此,本文通过探索新的研究思路和方法,对中文微博情感极性分析展开进一步研究,主要工作内容及创新点如下:1)针对中文微博情感极性分析面临特征缺乏和稀疏的问题,本文提出了一种综合多元词汇特征和8项微博语义相关特征的中文微博情感特征提取方法。在提取情感表情和微博句子组成规则特征的过程中,考虑到通过人工标注的方式来判断微博组成句子的情感极性所需的工作强度大的问题,本文设计并实现了基于情感词典的子句情感极性判断算法,以提高了语料库特征提取的速度,并提出了基于图传播的微博领域情感词典的构建方法来解决现有的开源情感词典在微博情感极性判别时效果不佳的问题。实验结果表明,本文的特征提取方法有效地提高了微博情感极性分类的性能。2)针对中文微博数据规模巨大且已标注数据缺乏的问题,本文提出了基于主动学习的中文微博情感极性分类算法,通过融合不确定性选择策略和置信度最高的样本选择策略来挑选最具信息量的未标注微博样本以扩大训练集规模,同时将长短期记忆(Long Short Term Memory,LSTM)模型作为主动学习算法的基分类器,以研究将深度学习算法应用到主动学习算法中的有效性。实验结果表明,本文的主动学习算法能有效地利用未标注微博样本中的情感信息,取得了较好的情感极性分类效果。3)针对仅依靠基于向量空间模型的词法特征对中文微博进行情感极性分类时存在准确率不高的问题,本文设计了一种松散条件下的协同学习算法来集成基于词向量的微博情感极性分类方法,以达到有效利用微博语义相关特征的目的。该方法采用支持向量机(Support Vector Machine,SVM)和LSTM作为协同学习算法的两个基分类器,并在学习过程中融合了主动学习算法的不确定样本选择策略,最后通过投票策略来决定微博的最终情感极性,通过实验验证了本文松散条件下的协同学习算法能有效地提高中文微博情感极性分类的准确率。4)针对当前微博情感极性分类领域缺少一个基于主动学习和协同学习的通用分类系统,本文设计并实现了一个基于主动学习和协同学习的中文微博情感极性分类原型系统。该系统实现了从文本预处理,特征提取到模型训练和极性预测的整套流程的自动化处理,为以后的微博情感极性分类研究工作的开展奠定了基础。最后在该系统上进行了微博情感极性分类实验,验证了本系统的实用性和易用性。
其他文献
论文选题源于国家科技支撑计划项目(项目编号:2013BAH57F01)。旨在对农业足式移动平台的运动平稳性控制方法进行研究,使之能够在山地、林地、丘陵等坡面田间完成独立运输行走
挖掘机是一种常见的重型工程机械,其在建筑等基础建设领域发挥着极其重要的作用。考虑到挖掘机的工作场景恶劣、危险系数高等因素,挖掘机的自动化、自主化作业需求日益增加。众多科研机构和企业也针对挖掘机的智能化作业做了大量的研究工作。挖掘机定位和挖掘机下车机构运动轨迹的控制是实现挖掘机自动化、自主化作业的基础。本文以履带式液压挖掘机的精确定位和行走轨迹的精确控制为研究目标。首先,对挖掘机下车机构相关的液压系
目的:对升陷汤加味治疗胆汁反流性胃炎(bile reflux gastritis,BRG)肝郁脾虚证的临床疗效和安全性进行临床观察。方法:按照纳入标准及排除标准,收集BRG肝郁脾虚证患者88例,按照随机数字表法分为试验组和对照组。试验组予升陷汤加味治疗,对照组予莫沙必利和碳酸镁铝治疗,两组疗程均为4周。观察治疗前后两组患者中医证候积分、胃镜下胆汁反流程度和胃黏膜表现,同时记录治疗过程中出现的不良事
车辆行驶过程中,驾驶员因外界环境与自身的影响,忽略交通标志,是导致交通事故频发的重要原因。交通标志识别系统作为车载驾驶辅助系统中的组成部分之一,可以消除强光刺激、侧
自然图像是信息承载的重要形式,获取高质量的自然图像在地质勘探、测绘、遥感、制导等诸多民用和军事领域中有着十分重要的意义。由于硬件设备成本的限制和环境噪声的影响,当
随着我国城镇化的进程,城市机动车保有量和人口密度呈现出快速增长的趋势,城市交通问题愈演愈烈,行人作为道路弱势群体,在混合道路交通环境中常常更易遭受伤害。据统计,每年在城市道路发生的交通事故中,涉及行人的事故占到百分之二十以上,并且具有较高的伤亡比例。因此,开展针对城市道路行人交通事故的分布规律和影响因素的研究,并针对性地提出预防对策和建议十分必要。本文以城市道路实际行人交通事故为出发点,基于地理信
自"五化协同、大抓基层"实施以来,东河区立足实际,采取有力措施,坚持教管结合,从发展党员、党员教育培训、纪律约束、党内关怀四个方面入手,多维并举,不断推动党员管理标准化
目的:本研究通过对收集的帕金森病非运动症状患者的临床资料进行统计学数据分析,总结出帕金森病非运动症状患者中医证素及证候分布特点,为中医辩证论治帕金森病非运动症状提供依据。方法:通过设计调查问卷,临床收集200例帕金森病非运动症状患者的姓名、性别、年龄等一般情况及病程、H-Y分级、非运动症状、中医四诊信息,归纳总结临床所得资料,并通过SPSS22.0统计软件进行统计学分析,根据其结果分析帕金森病非运
著名的物理学家费曼曾经说过:“What I can’t not create,I do not understand”。系统创造事物的能力在一定程度上表明了系统理解事物的能力,因此,研究生成模型有望加深对认知技术的了解,从而推动人工智能技术的发展。生成模型是机器学习技术的重要一环,主要可以分为传统生成模型和以生成对抗网络为代表的现代生成模型。传统生成模型考虑了显式的密度估计,具有良好的理论解释,但
为了建设智能化、无人操作管理化的变电站,变电站逐渐采用机器人来代替人工进行工作。但现如今很多变电站对绝缘子清扫作业还是采用带电水冲洗设备或者进行人工擦洗。论文针对变电站支柱绝缘子,设计开发出一种新型的攀爬式清扫机器人。能够通过机器人的视觉识别,自动完成绝缘子的清扫作业。论文针对绝缘子识别问题与绝缘子污秽问题展开研究,系统地研究了变电站绝缘子清扫机器人整体结构、绝缘子伞裙边识别算法和绝缘子污秽分类等