【摘 要】
:
本文的重点研究对象是微博评论信息的倾向性分析,主要的研究内容是以新浪微博中的评论为研究对象并且对评论中的情感倾向进行研究。本研究是将几种特征进行提炼、融合通过改
论文部分内容阅读
本文的重点研究对象是微博评论信息的倾向性分析,主要的研究内容是以新浪微博中的评论为研究对象并且对评论中的情感倾向进行研究。本研究是将几种特征进行提炼、融合通过改进的机器学习方法来增强分类效果。情感分析在舆论监控、商品检验有着广泛的应用。基于此,本文提出一个设想,把评论划分成三种类型:垃圾评论、主观评论、客观评论。针对不同类型的评论选取相应的方式进行分析,主观评论褒贬倾向是此研究分析的重点。本文首先对评论数据进行清理,剥离垃圾评论以及客观性评论。其中利用几种特征的有效融合并结合朴素贝叶斯、阈值划分等技术方法判断垃圾评论、客观评论,大大降低了文本的噪声。其次,针对文本褒贬倾向性分析,通过比较几种特征提取方法,并在其基础上改进情感词的选取方式和权值计算方式,构成新的文本向量空间。通过集成学习方法以及投票方式将传统的机器学习算法进行融合,达到更好的分析效果。本文实现了针对情感词的特征提取和权值计算的性能提升,使用Ada Boost、Random Subspace、融合分类器组合方式提升传统机器学习方法,提高评论分析的准确率。最后,通过性能评估方法说明本文的方法对评论分析具有很好地效果,同时本文针对评论的情感转移以及情感载体进行分析,判断褒贬数据集的情感载体异同,起到舆情分析预警作用。
其他文献
随着计算机和宽带技术的迅速发展,基于互联网的多媒体通信技术已经成为当前多媒体通信领域研究的热点。作为当前通信领域两个重要协议之一的SIP信令协议以其简洁、灵活、扩展
HTML是Web中的信息表达方式,但它仅能定义数据的外观和表现形式。XML相关技术不仅定义数据的外观和表现形式,而且定义了数据的结构。相对HTML,XML具有灵活简单、易读、良好的
语义网是未来互联网技术发展的一个方向,它将有效地整合互联网上巨大的信息资源,为人们提供丰富的信息共享途径。本体具有概念化、明确、形式化、共享等特点,很适合作为互联
数据备份与恢复系统是当前计算机应用领域的一个热点。传统数据备份与恢复系统主要运用定时备份策略,备份点相对离散,使得两个相邻备份点间的变化数据无法恢复。而运用数据持
信息技术的迅猛发展,特别是Web 2.0普及后用户参与度的大幅度提高,用户不仅可以在线欣赏视频,还可以成为网络视频资源的提供者,所以Internet的视频资源急剧增加,Web视频资源
随着信息化在全球范围内的迅速扩展,计算机网络已经成为人们日常工作和生活的一部分。内网作为机构内部信息流通的渠道,面临着严峻的安全形势。当前各种与现实利益挂钩的网络
近年来,嵌入式实时数据系统被广泛应用于工业控制、信息通讯、网络传输以及金融等领域。这类系统要求具有无人工干预的运行能力,要求事务具有良好的自适应能力和应变能力。项
信息科技的突飞猛进,特别是九十年代以来多媒体信息的迅速膨胀,使得数字图像记录设备保有量大大增加,每天产生数以万计的视频,这些视频包含了生活的方方面面。海量的视频量给人们
传统基于内容的图像检索中存在的语义鸿沟问题使得仅凭图像的低层视觉特征进行匹配检索难以获得较理想的效果。为缩小语义鸿沟,人们引入了相关反馈技术。该技术可从用户与检
在无线传感网络实际应用中,网络通常部署于难以掌控或者条件恶劣的环境当中,如危险区域远程控制。在应用现场部署阶段、以及网络长期运行过程中,网络服务质量和系统运行状况在节