基于评论的在线多媒体微博主题挖掘算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:wangshuo3246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的发展,互联网数据的表现形式越来越丰富,这些丰富的Web数据中蕴含着巨大的价值。近年来,大量研究人员正从事着从庞大的Web数据中进行文本挖掘的研究。微博是一种拥有丰富媒体信息的信息交互平台,在庞大的用户群体中有着深刻的影响力。一条微博的文本内容通常较为简短且微博主题通常蕴含在图片或视频等多媒体内容当中,因此如何挖掘复杂的多媒体信息的主题,并使用简洁而有效文本模型表达多媒体的主题有重要的研究意义。然而现有文本挖掘的模型与方法并不能有效挖掘并全面展示多媒体微博的主题,所以本文提出了一种新的文本描述模型以及主题挖掘算法。本文首先研究了话题检测与跟踪理论、话题跟踪技术与主题模型理论,并从中梳理了相关理论作为本文的研究基础;为指导基于评论的主题挖掘,本文在已有在线LDA模型的基础上引入微博主题热度动态演化以及主题内容动态演化提出了微博在线LDA(Microblog Online-LDA,简称MBO-LDA)模型,并用于在线微博文本流建模;基于MBO-LDA模型,本文设计了基于评论的在线多媒体微博主题挖掘算法,并使用内容与情感两个维度的多媒体微博文本描述模型展示主题挖掘结果;最后本文使用新浪微博爬虫工具集采集的216345条新浪微博按发表时间构建实验数据集进行对比实验,实验证明了本文提出的模型与算法是有效且可靠的。具体的创新点有:(1)根据微博平台的时效特性,改进Online-LDA模型并提出了MBO-LDA主题模型,并将模型用于微博在线文本流的主题建模来指导基于评论的主题挖掘算法。(2)提出了内容与情感两个维度的多媒体微博文本描述模型,每个维度上又将文本组织成文抽象的主题标签与具体的主题特征词两个粒度描述多媒体微博的主题,设计主题挖掘算法将评论文本组织成多媒体微博文本描述模型。
其他文献
五十年代初期,《每日新闻》的发行量曾居于领先的地位。后来,《朝日新闻》稳居“第一把交椅”长达20年之久。1976年12月之后,《读卖新闻》取而代之,占据了第一位“宝座”。
信息时代背景下的企业信息化已经是每个企业赖以持续成长和壮大的必经之路,但是目前国内企业的信息化之路并不顺遂,企业实施信息系统的成功案例并不是很多,于是探寻出影响信息系
随着我国经济金融市场发展和信息技术广泛应用,银行正在从资金融通商向金融服务提供商转变。物理网点、客户经理渠道吸收公众存款、发放贷款、办理结算等业务的传统经营模式,逐
随着人口的日益增长,以及工业产业的大肆发展,城市污水处理技术越来越受到人们关注。本文先分析了城市污水处理的概念,在此基础上,对城市污水处理体系和处理目标进行了阐述。而后
改革开放以来,中国医疗卫生事业转型发展势头迅猛,特别是2009年深化改革步入新阶段,卫生事业发展迈入更高的新台阶。但受长期非均衡发展战略影响而导致的城乡卫生发展差异、区域
驻马店地区位于河南省南部,是全国芝麻集中产区之一。常年播种面积100万亩左右 总产4000多万斤,种植面积和总产量均占河南省27%左右。30多年来,单产低而不稳,虽有一批亩产超
麦棉套种是增产粮棉的有效种植方式。在我国已有悠久的历史。建国以来,随着农业科学技术和栽培管理水平的提高,麦棉套种面积逐年扩大,增产也较为显著。根据河南省4年(1980~19
学以致用是我们学习的主要目的之一,努力做到理论联系实际是对我们训练工作的基本要求。本文通过笔者反复研读一些庄子的著作,并结合自身的工作及感悟所得,望能与同仁共勉。
随着我国经济的快速发展,私有汽车的数量也随之迅速增加,然而,要保持和维护一个良性健康的高速公路交通环境,保证高速公路有效的运营管理,这就需要高速公路区域中心机电系统的正常
合成了三(2-苯并咪唑亚甲基)胺合钴(Ⅱ)(化合物a)和三(2-苯并咪唑亚甲基)胺合锌(Ⅱ)(化合物b)配合物,进行了元素分析和红外光谱表征;用单晶X射线衍射方法测定了它们的晶体结