基于Pawlak属性重要度的混合情感特征选择算法研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:peiyingbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们的生活方式有了很大的改变。从原来的静态网页到现在的微博,微信,交流平台日渐完善,信息技术完全把我们带到了一个以用户为中心的年代。然而随着生活质量的提高,生活节奏也渐渐加快,更多人喜欢在微博平台发布信息量小,格式随意,实时互动的微博信息,这种快捷方便的交流方式不仅符合了当代互联网的发展,也渐渐影响了我们的生活。由于微博使用方便,传播广泛,关于微博内容方面的情感分析研究也渐渐成为研究热点。在情感分析的研究中,还存在领域的依赖问题,情感语义理解问题,特征提取问题,特征数量与召回率方面的制约问题,本文在前人研究基础上,深入研究面向微博文本的情感分析,论文介绍了情感分析的主流方法,字典方法与有监督的机器学习方法,通过研究有监督的机器学习方法,发现传统的特征提取方法采用较为单一的方法,不能很好的召回信息文本,通过研究发现粗糙集理论可以根据集合本身的特征进行特征选择,对文本的情感分类具有较好的分类效果,本文首次在中文微博文本情感分析中加入粗糙集理论,应用粗糙集理论与现有特征选择算法结合进行特征选择,提出基于粗糙集的特征选择算法:基于信息增益与粗糙集的特征提取算法IGRough,和基于χ2统计(CHI)与粗糙集的特征提取算法CHIRough,并与信息增益(IG)的特征提取算法进行对比实验,试验的结果表明基于粗糙集属性重要度的混合特征提取算法相比信息增益算法具有明显的优势,在F-值方面有明显提升。同时通过研究其他机器学习方法,发现随机梯度下降算法(SGD)具有比支持向量机更好的分类效果,而最大熵分类算法与岭回归分类算法也是一种极具研究价值的机器学习算法。根据以上研究将多种分类算法与特征选择算法组合,试图找到最优的微博情感分析模型。本文的最后,给出情感分析在舆情分析方面的实例,通过对微博情感的分析,可以及时的掌握大众对某一热点事件的态度,及时发布消息,有利于消除不良舆论。
其他文献
分布式移动社交网络是目前移动网络应用研究中的热点之一,而数据传输作为其中的一个关键性问题得到了广泛的关注。传统的移动自组织网络中的路由依赖于端到端的连接,已经无法适
日常生活产生了大量的互联网用户行为数据,包括在线电子商务交易数据。为了获得其中的时序相关,空间相关以及场景相关的模式,需要从不同角度对数据进行分析。现有方法针对时序交
C程序运行时错误是程序错误中较难发现的一类错误,因为运行时错误是程序在运行中产生的错误,具有隐蔽性强、不可预见的特征。比如常见的运行时错误包括数组越界、动态存储分配
随着多投影显示技术的不断完善,多投影显示系统越来越广泛地应用于各学科。人们对投影显示的质量要求越来越高,对系统的需求也逐渐趋于多样化。为了使拼接融合效果更好,本文设计
传统基于加速度传感器的运动识别方法通常假设传感设备是固定放置的,当传感设备的放置方式或位置偏离预定设置时识别性能会受到极大影响。然而,在普适计算环境下自由使用的传感
微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警
近年随着虚拟现实技术不断发展,使得基于高质量三维模型虚拟现实技术的应用逐渐渗透到我们生活的各个领域。面对三维模型数据量的不断增大,传统的基于半边结构的三维模型渐进
视频分割是计算机视觉领域的一个非常重要的问题,其中的视频双层分割在视频监控、物体行为分析、模式识别、物体检测、场景识别、视频聊天、3D电影制作等方面都有着非常广泛的
社交网络中的链接预测属于数据挖掘的一个研究方向,社交网络是由社会实体与他们之间关系组成的。链接预测的目的是从这种显式的关系中找出那些隐藏的关系。传统的数据挖掘通常
随着无线传感网络应用的增多,根据不同的应用需求提供相应的服务质量(Quality of Service, QoS)控制就成为无线传感网络研究的一个重要挑战。本文结合已有的簇树型无线传感网