微博特定事件关注群体的观点挖掘与衍化分析

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:njbbbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网社交媒体的出现并快速发展,微博这种以用户交互为核心的社交媒体,为社会舆论的堆积和传播提供了便捷空间。因此,许多政府机关、媒体、名人纷纷开通微博与网民展开互动,政府机关利用微博征求民众意见;名人开通微博发表正能量信息以获得更多支持;新闻媒体发表新闻消息以扩大知名度。但是,也有很多虚假消息和负面消息在互联网中传播,误导用户的观点,对社会稳定、民族团结以及国家安全造成消极影响。因此,识别特定事件下的关注群体,并对关注群体的观点进行挖掘和衍化分析不仅具有重要的科研意义,而且对于监控网络舆论、倾听民众诉求、保持社会稳定和维护国家安全具有重要的现实意义。本文以新浪微博为研究对象,对特定事件关注群体的识别、关注群体观点的挖掘和观点衍化的关键要素分析进行了研究,研究工作覆盖了分布式数据计算平台构建、特定事件关注群体识别、观点挖掘、情感分析和观点衍化分析,形成了一套微博特定事件关注群体观点挖掘与衍化分析的方法和理论。主要的研究工作和成果如下:(1)微博数据的获取和数据计算平台构建方法的研究提出了一种微博数据采集方法和数据预处理策略。通过微博API和基于Python的网络爬虫采集特定事件微博数据,根据数据格式构建数据库模型,然后对数据进行分层处理,具体分为ODS层、PDW层和APP层。同时提出了分布式数据计算平台构建策略,对数据计算框架进行分析和选型,构建了Hadoop+Hive+Spark+Mysql批处理计算平台和Storm流式数据计算平台,对海量的微博数据进行计算和分析。(2)特定事件关注群体识别方法的研究提出了基于静态特征和动态属性的特定事件关注用户活跃度计算模型。通过提取用户属性特征和用户动态交互属性特征,构建特定事件关注用户活跃度模型,对于用户活跃度参数的权重值采用层次分析法进行计算。同时提出了基于网络结构特征的重点关注用户挖掘算法,在PageRank算法的基础上增加了用户属性权重和用户交互属性权重特征,构建了DLRank重点用户识别模型。最后对重点关注用户进行特征提取,构建了基于特征映射的用户属性特征向量表征策略,采用模糊c-means聚类算法对特定事件关注群体进行群组划分。实验结果表明,本文提出的模型能够很好的识别出特定事件重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。(3)基于情感分析的关注群体观点挖掘方法的研究提出了基于情感分析的关注群体观点挖掘模型。首先构建面向微博领域的情感词典,提升NLPIR分词准确率,然后采用Standford Parser进行句法分析,抽取微博数据中的依赖关系。同时提出了基于最大熵的主观句识别模型,对微博数据进行主观句识别,计算主观句的情感倾向概率,选取概率值最大的情感倾向作为关注用户的情感极性,对于最大熵模型中参数权重值的计算采用迭代缩放算法进行训练。实验结果表明,本文提出的模型能够有效的识别出微博文本中的主观句,对于主观句的情感倾向标注F值均超过80%,证明本文构建的模型具有可行性。(4)基于主题分析的关注群体观点挖掘方法的研究提出了基于主题分析的关注群体观点挖掘模型。在TF-IDF算法的基础上进行改进,增加了词性特征,构建了POS_TFIDF主题词抽取模型。同时在POS_TFIDF模型的基础上,综合考虑了共现词的互信息和共现词的位置信息特征,构建了MLCP_TFIDF主题词抽取模型,基于上述两种模型对特定事件关注群体的观点主题词进行挖掘。实验结果表明,本文提出的主题词挖掘模型能够有效的抽取出关注群体的观点主题词,具有一定的实用性和可行性。(5)特定事件关注群体观点衍化关键要素识别方法的研究提出了基于滑动时间窗口的关注群体观点衍化分析模型。首先根据特定事件的发展轨迹对特定事件按时间窗口进行划分,对相邻时间窗口内的特定事件进行观点挖掘,然后计算相邻时间窗口内的观点相似度,依据本文提出的观点衍化判定规则对观点衍化轨迹进行分析。若观点发生衍化,则对发生衍化的时间窗口以及相邻时间窗口内的人物、时间、地点、关键主题词等多要素进行提取分析,识别出影响关注群体观点衍化的关键要素。实验结果表明,本文提出的模型能够有效监控关注群体的观点运动轨迹,及时识别出发生衍化的观点,同时影响关注群体观点衍化的关键要素提取结果相对准确,能够有效的识别出影响观点衍化的关键因素。最后,构建了一个微博特定事件关注群体的观点挖掘与衍化分析系统,系统由微博数据采集与预处理、特定事件关注群体识别、特定事件关注群体观点挖掘和特定事件关注群体观点衍化分析四个模块构成,可以对特定事件进行数据采集、观点挖掘、情感分析和观点衍化等相关算法进行实验和可视化展示。
其他文献
本试验通过室内培养的方法培养了不同植被不同土层的钙积半干润均腐土,监测了不同培养时间土壤中NH4^+-N和NO3^--N的日变化规律。依据Michaelis-menten反应动力假说,分别建立了N
监狱学专业教育是以培养监狱学专业人才为目的的教育活动,其具体工作涉及监狱学专业人才培养目标厘定、培养方案设计、师资配备、课程选择、学制制定等。监狱学专业教育与监狱
渭北高原沟壑区主要立地类型土壤水分变化及对刺槐生长影响分析结果表明:土壤水分与刺槐生长之间关系密切,说明水分是影响刺槐生长的主要因素,地形和土壤则是划分渭北旱塬立地
华南的古近纪沉积记录了低纬度地区对新生代早期气候变化的响应。虽然华南有丰富的古近纪陆相记录,但是很多记录缺乏精确的年代约束,从而无法有效甄别这些沉积记录中对气候变
目的探讨脑瘤肿术后患者进行放疗时出现的心理问题以及临床特点,总结护理人员应对患者心理变化和临床护理的方法。方法收集本科脑肿瘤手术后进行放疗的68例脑瘤患者临床资料,
节能增效是当今电网改造中的重点,对电网进行无功优化,不仅可以大大减少系统的有功网络损耗,还可以改善电压质量,提高线路和变压器的输送能力,因此成为当前电网改造中的常用方式。
本文综述了黑河流域湿地自然地理概况,分析了黑河湿地生物多样性现状及生物多样性保护存在的6大问题,提出了黑河湿地生物多样性保护和修复的7点对策,并构想了建立黑河湿地公