面向微博突发话题的舆情分析若干关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 5次 | 上传用户:iobject
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内外主流社会媒体的快速发展,社会媒体已经逐渐取代传统媒体,成为人们发布、分享信息的主要平台。社会媒体给信息传播提供便利的同时也成为突发话题产生与传播的重要平台。与传统媒体不同,微博产生的突发话题可以不受时间、空间的限制,大大增加了面向微博突发话题的检测与挖掘分析的难度。当微博中涉及敏感信息的消息大规模爆发形成突发话题时,如果不能及时有效的检测以及挖掘分析突发话题,突发话题产生的负面舆情将不断发展,最终会成为影响广泛的社会事件,危及整个社会的安全。因此,面向微博突发话题的舆情挖掘分析研究已经得到学界和业界的重点关注。由于微博平台具有数据量大、信息碎片化严重、用户质量良莠不齐、信息传播快等特性,通过人工方式进行实时监测并不能实时有效地检测和挖掘微博突发话题。因此,面向微博等社会媒体舆情产生的主要媒介,如何面向微博消息流实现突发话题检测以及突发话题挖掘分析,从而有效阻止微博舆情危机爆发并正确引导微博舆论是社会媒体舆情领域亟待解决的重要问题。本文以最具代表性的国内外主流微博平台作为研究对象,旨在面向微博突发话题研究突发话题检测、突发话题挖掘分析方法与技术。主要针对如下关键问题展开研究:首先,为了有效地检测突发话题,提出了适用于微博舆情感知的关键词和微博用户预处理方法。在关键词预处理方面,为了避免发现伪突发关键词,提出一种基于社会信任和动力学模型的突发关键词检测方法,该方法基于物理学中动力学的基本概念,将微博中的关键词突发现象抽象为关键词动量的变化,然后采用MACD指标计算每个关键词的突发权值并根据突发阈值判断该词在特定的时间窗口是否为突发关键词。在大规模新浪微博数据集上的实验结果表明此方法能够检测到微博中的突发关键词并且最大程度的避免发现伪突发关键词。在微博用户预处理方面,针对微博平台中存在大量低质量的僵尸粉丝用户,为了有效过滤僵尸粉丝等营销用户对突发话题检测准确率的影响,提出了一个基于交互图模型的僵尸粉丝检测方法。此方法利用用户交互关系构建用户交互图模型,根据交互图模型提出了高鲁棒性的基于交互的僵尸粉丝发现特征,并利用不同的机器学习分类器对提出的特征的有效性进行实验验证。实验结果表明本文提出的基于交互特征的方法能够更加有效的发现僵尸粉丝。本文从突发关键词及僵尸粉丝用户两个角度提出的预处理方法为后续突发话题检测及挖掘分析奠定了基础。其次,针对面向实时微博消息流的突发话题检测问题,考虑涉及微博负面舆情产生的突发话题通常是社会事件类突发话题,本文提出了一种面向微博消息流的突发事件检测方法,此方法首先基于滑动时间窗口构建高效的二层哈希表存储及更新模型,然后提出一个自适应调整阈值的候选突发消息检测算法提取突发消息,并从候选的突发消息中去除僵尸粉丝用户发布的突发消息,最后融合突发关键词及事件特征对突发消息进行增量聚类从而形成突发事件。实验结果表明本方法能够更加准确地检测实时微博消息流中的突发事件。再次,针对微博突发话题关键用户挖掘问题,考虑促使突发话题形成的关键用户对舆情事件传播的影响,提出了一种面向突发话题的社区关键用户发现方法。此方法基于突发话题用户关系对突发话题建立突发话题用户图模型,并利用基于随机游走的社区发现方法挖掘突发话题用户关系图中的用户社区。针对大规模的用户社区,利用基于排序的方法检测关键用户。该方法与其他关键用户检测方法相比能够更加有效地挖掘出促使突发话题早期传播与扩散的关键用户。最后,针对突发话题的突发模式挖掘问题,本文提出了一种面向突发话题的突发模式挖掘方法。此方法基于突发话题用户关系对突发话题建立突发话题用户图模型,结合突发话题用户图模型提出了宏观及微观突发模式挖掘方法,在宏观突发模式挖掘方面,提出了面向突发话题特征的层次聚类挖掘方法,该方法能够挖掘出不同类别的突发话题,在微观突发模式挖掘方面,提出了面向不同类别突发话题的频繁子图挖掘方法,该方法能够挖掘出不同类别突发话题中的频繁信息流模式。
其他文献
  本文首先分析我国大多数中小软件企业的特点,并阐述本文研究的主要内容及其意义。其次,总结和阐述软件工程、软件过程、CMM和CMMI的相关基本概念,同时分析和总结我国中小型
粗糙集理论(Rough set理论)是由20世纪80年代波兰人Z. Pawlak提出的一种新的数学数据分析工具,它通过严格的数学公式来处理不精确性、不确定的问题,具有演绎、归纳和常识推理
随着计算机技术和网络技术的飞速发展, 由此产生的各种数据呈几何级数爆炸式增长, 各种在线数据增长迅速, 促使数据存储容量以每年3 到5 倍的速度急剧增加。大量数据密集型的
为了充分利用并行分布式计算资源解决大规模现实世界问题,并行处理技术和模块化结构已经被广泛地引入了模式识别领域中的分类器设计。本文研究了一种基于训练集划分的问题分解
电子政务(E-government)是指各级政府部门运用先进的信息手段,将政府可公开的信息面向社会、面向公众发布,并使政府的服务工作网络化。实施电子政务有助于政务公开和提高政务各
  本论文对数据仓库,数据挖掘及数据可视化技术进行了归纳总结,深入详细地研究了PMML结构,PMML树模型和PMML关联规则模型,设计了PMML解析器DMVTable,分析了OpenGL技术,设计了图形
本文结合作者在一家手机设计公司的实习经历,详细阐述一款MP3手机的MP3播放功能部分的设计和实现,包括方案选择、与手机基带芯片的硬件接口、软件通信协议等。  总结了一款
实现语义Web构想的关键是创建本体,并使用本体词汇对Web内容进行语义标注。在标注工具中集成信息提取(IE)技术,可大大提高语义标注工具的自动化程度、减轻用户负担。而自适应
  本文对BDD的构造算法进行了分析和改进,给出了BDD包中构造BDD的算法,并分析了该算法存在的问题及相应的改进技术,提出了自己的改进算法:首先是引入了公理系统,将原有的布尔函
随着信息社会的高速发展,信息数据量呈现出爆炸式的增长,当前全球数据中心的数据量堪称海量。据统计,这些数据中有高达60%为重复数据,而它们需要进行不断地存储和传输,这必然会浪