基于主题模型的微博主题挖掘及预测

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:helloMrFat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网信息技术的迅猛发展,微博作为一种消息传播速度快、涉及面广、内容多元化、交互性高、实效性高等特点的新型社交网络平台迅速成为媒体新闻组织和大众分享和交流生活点滴重要渠道。仅用新浪微博为参照例子,日更已经能够高达上亿条新微博,并且信息量还在逐渐增多,其中包括海量时事重要信息。面对海量微博信息,如何有效整合碎片化信息并结合用户兴趣喜欢进行信息推荐是文本主题挖掘的关键问题。本文在传统LDA模型的基础上,结合四种类型微博(@类型微博、话题类型微博、转发类型微博、回复类型微博)特点,为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA和HMM模型优缺点,提出了微博主题挖掘模型MB-HL(Microblog-Hidden Markov Model&Latent Dirichlet Allocation)。该模型用逐条微博作为处理单元,建立分布主题-词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。为了进一步优化MB-HL模型的性能,分析了深度学习LSTM等端对端模型,提出了基于深度学习特征表示的概率主题模型DMB-HL(Deep MB-HL),本文采用LSTM模型,利用其网络结构能自动获取文档语义级别的特征表示,融合了深度学习特征表示和概率主题模型,通过深度学习网络挖掘出微博更隐含的主题。
其他文献
牢固树立和落实科学发展观,始终以服务经济建设为中心,切实做好国家和省重点项目用地保障工作,这是党和国家赋予国土资源部门的重要职责之一。那么,各级国土资源部门应怎样看待这
试验旨在研究无抗日粮条件下添加酸化剂对黄羽肉鸡生长性能与肠道健康状况的影响。900只1日龄黄羽肉鸡被随机分成两组,每组6个重复,每个重复75只鸡。对照组为无抗日粮组,试验
本论文工作主要包括两个部分:贵州中草药铁筷子化学成分研究和鹿蹄草化学成分研究。从两种黔产中草药中共分离出18个化合物,通过理化性质和波谱数据分析鉴定了其中的13个,其
随着市场经济体制改革的不断完善,高校办学的自主权不断在扩大,财务管理也面临着改革和创新。本文时各高校在新环境下的财务管理中普遍存在的主要风险问题进行分析,从高校财务管
4月23日,省国土资源厅党组书记、厅长张启生,厅党组成员、副厅长文茂林在商丘市政府副市长张家明、市国土资源局局长彭显文等的陪同下,到睢阳区国土资源分局信访执法队二中队原
本文根据西方对外直接投资(FDI)的产业选择理论,在分析了世界FDI产业选择调整趋势和中国FDI产业分布现状的基础上,对我国FDI产业选择进行具体分析,并提出我国FDI产业选择的走
摘 要:现如今,乡村旅游环境的建设与规划已经逐渐成为社会主义新农村建设当中的重点内容,特别是一些历史悠久、文化底蕴深厚的民镇名村,为了能够展现地域性所独有的文化特征和旅游风貌,纷纷对当地旅游资源进行开发。然而,在规划过程当中,为了能够吸引旅游者,甚至不惜模仿和抄袭一些著名景区资源和文化,导致有许多名镇名村在规划上出现雷同的现象。陕西省作为历史悠久的区域,拥有许多名镇名村,这些名镇名村具有悠久的发展
河南省有尾两栖类共计5种,分隶于3科,5属,即极北鲵SalamandrellakeyserlingiiDybowsky商城肥鲵PachyhynobiusshangchengensisFei,QuetWu巫山北鲵Ranodonshihi(Liu)大鲵Andriasdavidianus(Blanchard)和东方蝾螈Cynopsorientalis(David)1大鲵广泛分布于全省各山区;2东方蝾螈分布于南部大别山区和桐柏山区;3商城肥鲵、巫山北鲵、极北鲵分布
由中央和国务院六部委倡导的全国县乡村国土资源法律知识培训活动,全省自2007年10月10日开始,截至目前,已经基本结束。如何进一步巩固和发展这一成果是摆在各级领导面前需要回答
昨日,在接受记者采访时,曲靖市委副书记、市长董保同就打造曲靖旅游“黄金十年”,向我们展示了一幅让人充满期待的蓝图……$$ 提升旅游品质$$ 打造“生态文化旅游目的地”城市
报纸