基于分布式MBUT-LDA的微博用户主题挖掘

被引量 : 0次 | 上传用户:gaoyueeryubing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为当下最主流的社交网络平台之一,已经成为用户发布和获取实时信息的重要手段。微博主题建模能够从海量信息中挖掘用户感兴趣的话题和其他用户。但是由于微博具有消息文本短、信息更新快、以及数据量巨大等特点,传统的主题建模方法并不能有效挖掘出用户真正感兴趣的信息。本文在研究已有的主题建模方法的基础上,提出一种基于微博用户和时间维度的建模方法MBUT-LDA。其中MB代表微博(MicroBlog)、U代表用户(User)、T代表时间(Time)。该方法具有以下特点:⑴本文在分析研究已有主题模型的基础上,并且充分利用微博消息的主题在时间上有明显的集中性特点,将用户的微博信息按照时间进行划分。此方法解决了微博文本信息短引起的信息量不完整问题,并且充分利用了微博消息的主题有明显的时间集中性特点,提高了微博用户主题的准确度。⑵在分析微博用户和好友关系的提出上,提出“关注度”的概念;并结合TF-IDF算法,提出新的权重计算公式ATF-IDF,用以衡量微博词汇预测主题的能力大小。⑶现今微博用户量剧增,并且微博平台允许微博用户通过各种移动客户端发布即时信息,导致微博信息文档规模庞大,单一节点在分析微博海量信息时容易遇到性能瓶颈问题。本文利用分布式和虚拟化技术的优势,将提出的新的主题建模方法部署到分布式计算平台Hadoop上,实现了一个基于分布式框架Hadoop的MBUT-LDA微博用户主题挖掘方法。本文利用提出的分布式MBUT-LDA主题建模方法,通过大量微博消息训练微博主题模型,并在训练好的主题的基础上,挖掘微博用户的感兴趣的主题。实验证明,经过ATF-IDF优化的MBUT-LDA的推广度和主题的准确度要高于MBUT-LDA和U-LDA(基于微博用户的主题建模)。通过对不同用户数量和不同节点数量的分布式MBUT-LDA实验结果分析发现,随着节点增加,能够有效的减少处理数据的时间,并且能够有效的处理庞大的数据。
其他文献
目的:探讨腹膜炎的临床情况、原因,进行分析并提出防治对策。方法:对本科28例尿毒症患者接受CAPD治疗并发相关性腹膜炎的临床情况、原因,进行分析并提出防治对策。结果:不同
本文通过梳理雷洋涉'嫖娼'事件发生后媒体报道的主要类型和具体内容,分析报道中存在的问题,探究媒体应如何更好地监督司法。
喀什地处新疆西南部,是古丝绸之路最重要的商贸中转站,曾被人们称为丝绸之路的“十字路口”,不同的文化在此撞击、融合,造就了多元并存、多维发展的独特喀什文化现状。基于这样的
反腐败靠什么 ?反思现行反腐败机制 ,正视现实、借鉴历史、探求理论 ,走出重刑主义误区 ,正确认识刑罚在惩治腐败中的作用是十分必要的。编制严密的制度之网是反腐败的基本保
<正> 蔡元培先生是我国近代著名的思想家、教育家和革命民主主义者。蔡元培先生生长在中华民族多灾多难的年代,世界资本帝国主义和中国的封建势力勾结起来,把独立的中国变成
焊接存在于现代工业的各个行业,随着现代工业的发展,焊接及相关工艺过程也在同步飞速发展,而相应产生的焊接烟尘等对人体健康有害的污染物质引起了公众的关注,根据目前中国焊
为解除温室内‘奥迪亚无核’葡萄休眠,提前萌芽,进行了不同浓度石灰氮涂抹试验。结果表明,5倍和7倍石灰氮处理的效果优于其他处理和对照,植株萌芽早,萌芽率高,成熟期早,经济
中国个人住房抵押贷款的规模虽然随着住房市场的发展而迅速增长,但是与发达国家相比,中国的住房抵押贷款体系仍然处于起步阶段,采用抵押贷款购房的家庭数量相对较少,金融机构提供
国民经济的迅速发展对我国电网的安全可靠性及输送容量提出了更高的要求,而输电线路覆冰、绝缘子污闪和缺电现象不断出现,这严重制约了各行各业的发展。为此,输电线路覆冰、绝缘
深海环境的不断恶化以及近年来超强台风等极具破坏力的极端海况频繁出现,对平台安全性提出了严峻挑战,诸多的安全性指标中,气隙性能一直是半潜平台设计过程中一个关键问题。气隙