基于最大树划分的微博热点话题检测方法研究

被引量 : 0次 | 上传用户:lummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传统互联网技术和移动互联网技术的快速发展,网络信息的传播速度和传播规模都得到了极大的增长,人们的交流方式也随之发生了改变。微博作为迅速崛起的新兴网络媒体,越来越多地受到人们的关注。作为消息传播和互动交流的平台微博能够在短时间内产生大量的信息,这使得用户很容易陷入到局部的微博信息中而失去了对整个微博空间最新动态的了解。面对浩瀚的微博信息,如何能够快速准确地获取整个微博社区中的热点话题,已经成为一个重要的研究方向。虽然传统的话题检测技术已经相对比较成熟,能够帮助用户快速地获取隐藏在大量长文本中的话题。但是该类方法在处理海量微博短文本时仍然存在着明显的不足:一是计算复杂度过高,海量微博信息间的文本相似度计算对传统话题检测系统是致命的;二是丢失词语的语义信息,在传统的话题检测模型中,仅仅通过文档间重复词语的多少来判定文档的相似度,忽略了词语之间的语义关联。针对上述问题,本文通过对微博热点话题检测相关理论和算法的学习,分析现有的微博热点话题检测算法的优缺点,结合微博自身的特点,提出了一种基于最大树划分的微博热点话题检测方法。通过在采集到的微博数据集上进行的大量实验,验证了本文方法的有效性。本文所提出方法的主要贡献如下:①提出了只针对一段时间内的微博数据进行话题检测的思想,这符合实际中微博系统对热点话题检测功能的要求,同时能够很好地去除在话题检测的过程中历史已有话题对新话题检测的影响。②改进了特征项权重和微博相似度的计算方法。通过将词语间的语义相似信息结合到现有的计算方法中,达到了降低中文微博由于一词多义和一义多词现象所造成的计算误差的目的,提高了计算的准确性。③提出了基于最大树划分的微博热点话题检测方法。通过对模糊相似矩阵进行最大树生成有效地去除了微博彼此间那些似是而非的噪音相似数据,降低了计算规模。同时,采用改进的K-means聚类算法能够自动确定聚类个数,使得聚类结果更加准确。另外,提出了计算微博话题热度的方法,用以对微博话题的热度进行排序,发现热点话题。④在整体执行效率、准确率方面相较其他微博话题检测方法有所提高,有效提高了传统话题检测算法在处理大规模数据时存在的效率低下问题。
其他文献
企业集团在发展到一定阶段之后,必然会遇到母子公司的管理问题,这个问题也是多年来众多学者的研究重点。企业集团在发展壮大之后,其所经营的项目不局限于单一方面,往往会实现
在伊斯兰世界里,法律与宗教从来就不是相互分离的。在法律被披上宗教外衣的同时,宗教也一定程度上被赋予了法律的权威。伊斯兰教与伊斯兰法就是这样千百年来不断的相互推动,
目前我国正处于社会结构转型时期,由于家庭结构和人口结构的转变、工业化、城镇化、社会现代化和社会经济体制的改革,带来社会人口的大流动,直接导致社会环境和面貌的大变革。由
<正>在海外市场,海尔集团在全球白色电器制造商中排名第四,2004年世界最具影响力的100个品牌揭晓中,中国海尔以95位名列其中,成为首次、唯一入选的中国品牌。海尔成功的经验
中国杰出的人民作家、忠诚的共产主义战士——梁斌,其跨越50年的生命之作《红旗谱》三部曲被誉为里程碑式的作品和红色经典。读《红旗谱》可以感受到它强劲的生命张力,而这种
<正>一、问题的提出近年来,学界、政界和民间对中国官员规模问题都很关心。舆论上多年来一直居主导地位的是"臃肿论",即机构庞大,人浮于事,必须大幅度精简。事实上,中国
生态文明建设关系人民福祉、关乎民族未来。党的十八届三中全会重点强调生态文明的重要性,并将其纳入社会主义现代化建设的总体布局。发展生态经济是建设生态文明的基础和关键
随着无线接入技术和移动终端技术的飞速发展,移动互联网应运而生并迅猛发展。4G时代的开启以及移动终端设备的普及为移动互联网的发展注入巨大能量,移动互联网产业也发生了前所
学位
随着信息技术、网络通信技术、电子传感技术、控制技术及计算机技术的进步,智能交通系统正蓬勃发展,而车辆的自动驾驶则是其研究的重点内容之一。单车的自动驾驶技术研究已经取
公共交通作为一种重要的出行方式,承载着城市居民大量的出行。随着城市的大规模建设和城市大型公共交通的逐步运营,一些新建的小区,并没有相应的公共交通为其服务;尽管轨道交通发