基于时间发展的微博自适应话题追踪研究

被引量 : 0次 | 上传用户:sunjiajun75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,社交网络由于其交互性、自由性和开放性受到越来越多的人的青睐。自从2006年,世界首款微博客(以下简称微博)服务网站—Twitter由美国的埃文-威廉姆斯公司Obvious推出以来,微博服务蒸蒸日上,堪称蓬勃发展。微博不同于传统的新闻、博客,其内容简短,限制在140字以内。但是,用户除了可以在自己的微博内容里加入简短的文本以外,还可以加入图片、视频、音频和其他链接等。这种自由、开放的传播方式,受到了广大用户的欢迎和关注,同时,微博服务也在全球各地快速传播,掀起了一股微博服务的热潮。由于微博的自由性、交互性和开放性,人们可以随时随地分享自己的所见所闻或发表自己的情感态度。随着微博用户的急剧增长,微博信息量日益剧增,一些突发事件往往也容易在微博平台显现出来。因此,现阶段微博话题检测研究正受到研究学者的关注,正逐渐成为研究热点。但是,人们有时更关注某一事件的发展状况,因此微博话题追踪显得尤为重要。为了充分利用微博的时间敏感特性,及时检测和追踪微博热点话题,本文进行了如下研究:1.针对微博信息量大而时间敏感性强的特点,提出基于速度增长的微博话题发现方法本文提出了基于速度增长的微博热点话题发现方法。首先把经过预处理的微博按等数量窗口划分,统计每个窗口内各词语的词频,并表示成时间二元组序列;然后通过计算每相邻两个窗口的个词语的增长斜率来发现增长速度快的词语;然后通过计算与该词语有关的用户的增长速度和微博条数的增长速度来确定该词语是否是热点主题词;最后通过热点主题词聚类产生热点话题。结果表明,该方法对新话题有很强的的挖掘能力。2.针对话题追踪中的话题漂移问题,提出了基于时间发展的微博自适应话题追踪方法该方法首先针对微博追踪中的数据稀疏问题,利用基于相关性检索的特征词扩展方法来扩展特征词;然后针对特征词权重不变容易导致召回率低的问题,利用基于时间衰减的特征词权重调整策略对特征词权重进行适当的衰减;最后针对话题模板静态不变问题,提出了基于双重过滤技术的话题模板调整方法,把相关报道且重要性得分高的报道用来更新话题模板。实验表明该方法在一定程度上提高了追踪效率。3.设计并实现了基于时间发展的微博自适应话题追踪算法的网络舆情监测系统将本文提出的自适应话题追踪方法应用于网络舆情监测系统中的话题追踪模块的话题模板调整,利用重要性得分高的微博条目更新话题模板,使系统有更高的召回率和准确率,满足用户的需求。
其他文献
<正>1范围ISO 16750的部分描述了直接安装在道路车辆上或内的电气和电子系统和组件可能存在的机械环境应力的定义、一般规定和通行的试验和要求。
在比较了国外两种小型静电陀螺仪方案的基础上,研究了一种小型静电陀螺仪质量不平衡调制信号读取、数字式支承和电场恒速三位一体工作系统方案。介绍了三位一体系统的工作原
本文分析了在我国经济社会快速发展的背景下,新闻工作者职业道德缺失产生的原因,并探讨了解决道德缺失的对策,对于防止和遏制新闻工作者职业道德缺失,提高新闻的可信度有着非
乳腺浸润性微乳头状癌(invasive micropapillary carcinoma,IMPC)是一类少见的乳腺恶性肿瘤,以明显扩张的类似海绵状的"血管或淋巴管"腔隙中小乳头状结构为其基本特征,WHO分
在单相数字粒子图像测速度(PIV)技术的基础上,研究了PIV两相流动的测试及图像处理方法。利用数学形态学的原理以及互相关法,对两相粒子图像进行标定、识别、区分和流场分析,
目的:对口服抗高血压药的使用情况进行调查分析,为临床用药及科学管理提供参考。方法:收集2007—2009年我院计算机中的药品出库数据,采用Microsoft Excel进行统计分析,通过抗
为了在汽车测试中模拟汽车惯量,研究了机械惯量电模拟的方法。分析总结了传统飞轮组模拟方法的局限性。分析和给出在不同测试目的和测试结构下,汽车等效惯量的不同计算方法。
由于低成本IMU的输出具有较大的偏差和噪声,地球的自转速率完全被淹没在其中,无法实现自对准。因此在低成本IMU/GPS组合导航系统的设计中,初始对准使用GPS提供的速度信息进行
目的:了解住院患者前半年抗菌药物使用的现状,为临床合理用药提供参考。方法:调查2010年1—6月出院病历资料,统计住院患者抗菌药物使用情况,并进行分析。结果与结论:我院共有
列维坦是一个集深刻的艺术思想,诚挚的感情,纯熟的艺术语言技巧大成的杰出画家。列维坦的作品色彩想象力丰富,他的作品更体现了人的情感寄于景物之中的至高境界。他的艺术代