基于微博的热点话题提取

被引量 : 6次 | 上传用户:chinadyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,微博作为一种信息平台,以其庞大的用户群、特有的用户关系结构显示出巨大的影响力,在人们的社交生活中扮演着越来越重要的角色,已经成为信息传播的新势力。目前,仅新浪微博一天的微博发布量就达到了几千万甚至上亿条,这种量级的数据很难通过人工处理的方法及时提取出隐藏在海量数据背后的热点话题。因此,使用计算机自动处理微博信息,及时从海量信息中挖掘出热点话题,对于了解最新的舆论热点、掌握舆论动向有着重大意义。传统的TF-IDF话题提取方法,由于其特征维度较高、数据较稀疏,无法从语义层面解释词与词之间的关系。概率主题模型LDA(Latent Dirichlet Allocation)认为每个文档可以包含多个主题,不同主题下对应的词的生成概率不同。相比于其它的文本模型,LDA更符合实际应用中的情况,对文本有着更好的描述能力。本文针对微博话题的挖掘和提取进行了研究,具体的工作包括:1.通过研究各种文本建模方法,选取了LDA作为最终的模型。通过使用吉布斯抽样方法求解LDA模型,得到了微博文本的主题分布向量。使用主题分布向量作为微博的文本特征有效地降低了数据的维度,为后续的聚类算法提供了维度低、区‘分度高的数据。2.对Single-Pass聚类算法进行了改进,在保证聚类效果的同时提升了聚类的时间效率。3.研究了文本类的话题词提取算法,提出了基于词共现模型的相似度度量方法,使用相似度矩阵进行层次聚类分析,选取最大的类作为最能代表微博文本类内容的话题词组。4.完成了热点话题提取系统,有机组合了网络爬虫、数据库模块、分词模块、聚类模块、话颗词提取模声,实现了微博热点话题的自动提取。
其他文献
苯醚甲环唑是一种被广泛使用的低毒性杀菌剂。目前,用于检测食品中苯醚甲环唑的方法主要有液相色谱法,气相色谱法,色谱-质谱联用等分析方法。然而,这些方法均有一些缺点,如:
目的观察空气波压力治疗仪预防剖宫产术后下肢深静脉血栓形成的疗效。方法将2011年11月—2013年3月收治的1 104例剖宫产产妇设为观察组。将2009年6月—2011年10月收治的1 196
旋流喷嘴纺纱是一项借助旋转气流来改善传统环锭细纱毛羽含量的技术,本课题组在该方面已做了大量研究。前人设计的旋流喷嘴虽然结构简单,使用方便,减羽效果好,但由于喷嘴结构还不
随着我国职业教育的改革和发展,中等职业教育和高等职业教育两个学段之间的有效衔接沟通成为一个突出而又现实的问题,整体规划中职和高职德育课程体系是我国当前职业教育课程
目前,新型服装设计系统在服装仿真和服装试穿方面业已成熟,但在服装建模和服装修改方面还存在不足,如无法创建复杂服装模型,修改操作过于繁琐等。本文针对这些不足,开展服装
【正】 朴刀,又名双手带,系武术长器械之一。是古代步骑兵作战武器,因较大刀轻便,所以,使用灵活,过去太平军战士很喜欢使用这种兵器作战,故又有人称朴刀为“太平刀”。朴刀常
事件结构理论立足句法-词汇语义接口,旨在解释动词的论元实现和句法映射;状态变化动词是用于描述某一物体形状或外表发生变化的动词,在语言学界受到普遍关注。从事件结构理论
成语是语言的精华,作为一种现成的语言单位,它集精练、形象、生动于一体,使交际者能用最简洁的语言表达复杂、深刻的思想和丰富的感情。每一种语言都有大量成语,它是各民族在
在文献查阅分析和专家深度访谈的基础上,初步建立了包含16项因子的情报人员胜任力模型,并设计了16个题项的胜任特征调查量表。为验证模型的合理性,选择了江苏省多家企业和研