微博舆情热点检测与跟踪方法研究

被引量 : 0次 | 上传用户:yh124712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是近年来出现的一种网络新媒体,它传播迅速、使用方便。随着互联网使用者数量的增长,特别是近年来手机互联网用户的增加,越来越多的人开始使用微博服务,微博舆情挖掘研究也变得日趋重要。微博舆情热点检测与跟踪技术是微博舆情挖掘的关键技术。它利用计算机对海量的微博信息进行处理,提取热点主题并且对其进行跟踪。本文提出了一套微博舆情热点词检测与主题发现方法,并针对微博舆情能快速地向其它网络媒体扩散的特点,将主题爬虫技术应用于微博舆情跟踪。首先,本文改进了基于老化理论的微博热点词检测方法。针对微博的文本信息、微博发布者信息、微博传播特性三个方面作出评价,结合老化理论分析,检测出微博信息中的热点词汇。随后依照共词分析方法,对检测出的热点词进行聚类,得到微博舆情热点主题。其次,本文面向微博舆情向其它新媒体扩散的情况,提出了基于主题爬虫的微博舆情跟踪方法。主题爬虫是垂直搜索的信息获取部分,利用其按照主题爬行的特点,将其应用于主题跟踪领域。对于微博热点主题信息,使用基于Shark-Search的主题爬虫进行跟踪和热度评价。为使主题爬虫更加切合主题跟踪的需求,论文对Shark-Search算法进行了改进。再次,构建了实验系统对本文提出的主题检测方法和主题跟踪方法进行了评测。在实验中,使用百万级别海量微博信息语料对改进的基于老化理论微博舆情热点检测方法进行了实验评测,并使用真实的新浪微博热点主题对基于主题爬虫的微博舆情主题跟踪做了实验评测。实验结果表明,本文的方法对于微博舆情热点检测与跟踪有较好的效果。最后,本文对所做的工作进行了总结与展望,提炼了微博舆情热点检测与跟踪方法中值得继续研究的若干问题,对以后的研究工作进行了讨论。
其他文献
为评估“两型社会”建设是否对改善城市空气质量发挥了作用,本文以长株潭主城区为研究对象,从土地利用视角出发,融合地理国情普查数据、遥感气溶胶光学厚度(AOD)数据、PM2.5
<正>2010年中央人才工作会议召开以后,山东省委、省政府印发《山东省中长期人才发展规划纲要(2010-2020年)》,对科技人才培养与引进作出系统部署。党的十八大以来,以印发《关
分析了医院医疗设备利用率管理的现状,提出了医疗设备利用率管理的前期工作与实施方法。建立设备的性能价值评定标准以及加强设备的维护保养工作都是提高设备利用率的有效途径
循环农业代表着农业的发展方向。作为解决"三农"问题、改善生态环境的有效路径,如何尽快实现循环农业本土化和普遍化问题是中国农业发展的重要内容。通过对循环农业高效运行
一条钢铁巨龙正向“世界屋脊”——青藏雪域高原挺进!这是中国工程史上一次具有划时代意义的跨越。这是中国实施西部大开发战略边出的强劲步伐。这是中国国力强盛、科技进步
目的:分析464例巨大儿分娩方式和结局,探讨巨大儿选择分娩方式的原则和处理方案。方法:对我院2005年1月~2009年12月住院分娩的464例巨大儿的分娩方式和结局作比较。结果:巨大
关隘是人们利用自然地形修建的人工建筑,并有相关机构设置,在中国历史进程中,其作用举足轻重。其首要作用便是军事防卫屏障,另外在对外交流、商贸活动和其他政治、经济活动都
针对多项LOGIT选择模型存在解释变量难以度量的问题,本文构建了网络消费者品牌选择的模糊LOGIT模型。采用三角模糊数来描述定性变量,并利用其均值、方差及模糊隶属度将模糊LO
<正>学界关于康熙十四律的评价褒贬不一、称谓也各不相同。杨荫浏先生在《中国古代音乐史稿》中称其为"十四律制"①,对其是否定的。胡企平先生在《中国传统管律文化通论》中
行人再识别(Person re-identification)技术是判断在不同监控摄像头下出现的行人图像是否属于同一行人的技术。面对海量增长的监控视频,利用计算机对监控视频中的行人进行再