一种基于微博的热点话题发现算法的研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:vecent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络和移动互联的不断发展,人们对社会生活的参与性也越来越积极。这对新闻媒体是一大挑战,也是一个向新媒体转换的契机。如何更加快速的发现、报道有价值的新闻信息成为了新闻媒体亟待解决的问题。新闻价值往往取决新闻的实时性,只有以最快的速度获取社会的热点和热点趋势,才能获取具有价值的新闻。本文提出了基于微博的热点话题发现算法从微博上实时的发现社会热点话题,及时的挖掘出社会焦点和社会舆情,从而让新闻工作者从中挖掘有价值的新闻。本文的主要工作如下:(1)研究了社交网络的理论,了解了社交网络主要理论六度空间和小世界的理论;分析了网络爬虫,分析了网络爬虫程序主要分为递归实现和非递归实现方式;分析了网页解析技术,解析网络爬虫爬取的网页信息的技术主要有五大类;最主要介绍了话题模型的四种实现模型,并比较了这四种模型各自的优缺点。(2)设计了话题发现和识别模型,并通过热点话题发现算法和潜在热点发现算法进行话题跟踪和识别。首先通过布尔模型和向量空间模型对话体进行表示,然后对话题的评论进行噪声过滤;然后对噪声队列进行情感分析,将一部分被视为噪声的评论重新放回相关评论队列中;最后通过设计的热点话题发现算法和潜在热点话题发现算法进行话题跟踪和识别。(3)在新浪微博上通过对微话题的爬取,获得微话题的评论数和转发数。利用本文设计的话题发现算法对新浪微博上的排名前的话题进行了重新排名,得出了合理的结论,也对话体发现算法进行了验证。本文的创新之处:(1)本文提出了话题评论去噪的算法,通过此算法可以将话题的评论分为相关话题和非相关话题,这对之后的热度值HotDegree计算非常有用。(2)本文提出了增量观察算法(IOA)来发现趋势热点话题。对于一个话题来说,成为热点话题需要一个过程,所以如何判断的趋势走向就是本算法的主要解决的。
其他文献
近几年深度学习在目标检测领域的不断发展,使得SAR图像目标检测技术在海洋监测、渔业管理以及科学研究等领域均得以广泛应用。同时,我们注意到,现有检测模型大多基于光学图像
本文研制了一种环境友好的铝合金表面无铬红色Zr-Se化学转化膜,并研究了膜层的制备工艺及结构性能。此转化膜主要是以氟锆酸钾和二氧化硒作为主盐,NaF作为加速剂,MgSO4作为成
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。一些被广泛使用
多层网络模型更加符合现实中许多真实系统的结构和机理,能够更加准确、全面地描述某些真实系统的形态、作用和发展趋势,是研究复杂性问题的一种十分有效的方法。同步是指多个相互作用的系统随着时间的演化最终趋于相同状态的现象,是复杂网络理论的重点研究方向之一。目前对复杂网络同步性问题的研究已经取得了较大的学术进展。同时,复杂网络的研究趋势逐渐由单层网络向多层网络拓展。本文主要研究了多层星形网络在不同耦合模式下
皮江法为我国主要的原镁生产工艺,其产量占国内原镁总产量的90%。该方法还原温度高、反应时间长,导致工艺能耗高、渣含镁高。选择一种合适的还原剂替代硅铁,是一种可行的方法,这对镁冶炼节能降耗具有重大意义。本文以煅烧白云石(以下简称煅白)为原料,将一定量铝粉掺入硅铁作为还原剂,模拟皮江法炼镁。实验主要研究了铝粉参与皮江法还原镁时铝硅铁的物相转变、炉渣物相转变规律,揭示铝参与硅铁还原镁过程中的镁扩散模型、
作为负责任的发展中国家,中国一直致力于控制二氧化碳排放。2015年,中国宣布本国二氧化碳排放将于2030年左右达峰,并争取尽早实现。近年来,交通运输业已逐渐成为仅次于能源和工业部门的主要二氧化碳排放源,尤其是交通基础设施,其二氧化碳排放于1997-2016年间年均增长率达到15%,且仍呈上升趋势。为尽早实现二氧化碳排放达峰目标,交通基础设施低碳转型迫在眉睫。提高碳排放效率是实现交通基础设施低碳转型
越来越多的中国“独角兽”企业,特别是互联网企业,寻求海外上市,主要选择赴美国资本市场上市。这些企业选择国外资本市场上市,主要有两个原因:一是东道国资本市场采用注册制,而非中国的行政审批、审核制。如美国对上市的公司盈利状况就不做要求。二是新兴的互联网企业股权融资,为了防止其在多轮融资过程中稀释股权而失去对公司的控制权,多采用双层股权结构设计,而中国资本市场不允许双层乃至多层股权结构。在这样的资本融资
“X不死P”是对现代汉语中“打不死你,烦不死你,急不死我……”这类日常语言现象进行概括总结的结构形式。“X不死P”具有同形异义的歧义现象,在不同的语境下具有完全不同的语义分类,一种是否定义的,一种是肯定义的,其中的“死”和“不”也经历过语法化过程,在不同情况下具有不同的表现。本文试图以“X不死P”为研究对象,基于句法、语义和语用三个平面,立足共时研究也兼顾历时研究,通过建立语料库,对语料库的相关语
随着计算机技术和集成电路技术的发展,作为图形处理器的GPU(Graphics Processing Unit)现已发展成为专为密集型、高度并行的计算而设计的CPU的协处理器,用以完成大规模的计算
研究目的:滥用海洛因的问题对吸毒者个人及社会都带来了及其严重的危害,寻求科学且有效的方法帮助他们戒除对毒品的依赖,恢复其健康的体魄是当前戒毒康复治疗教育工作的重要难题。本文以体育运动可以增强滥用海洛因强制隔离戒毒人员(后文统称强戒人员)的体质,降低其对成瘾药物的渴求,促进他们的身心康复,为理论基础,探讨气排球有氧运动和抗阻力量训练两种不同类型的运动对戒毒者的身体素质、身体成分,和心理渴求等方面的影