微博话题检测与追踪技术研究

被引量 : 20次 | 上传用户:lhfheihei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,微博作为一种新型的网络媒体形式,越来越多地被人们所接受。微博话题检测与追踪技术主要研究如何对海量微博信息进行合理分类,及时发现重要信息并加以跟踪,已经成为当前研究热点之一。为此,本文主要研究了微博发帖规模预测、微博数据净化、微博话题检测与微博话题追踪等内容,取得以下研究成果:(1)在微博发帖规模预测方面,针对微博发帖行为的随机性、有序性、独立性等特点,采用非齐次泊松过程(NHPP)建立了微博发帖规模预测模型;基于实际数据,求解了该模型。实验验证了NHPP预测模型的可行性和合理性,结果表明NHPP模型预测效果优于GM(1,1)模型。(2)在微博数据净化方面,针对微博语言口语化和不规范导致的数据质量问题,采用“质心”、“度-中心值”和“特征向量-中心值”等三种算法对微博数据进行净化;并依据规范性、相关性和有益性等质量评价指标,比较分析了三种算法的净化效果;在此基础上,设计了一种微博数据净化处理系统框架。实验表明:净化处理显著提高了微博数据质量指标值,平均提高20%以上。(3)在微博话题检测方面,针对微博数据特征稀疏问题,提出了MB-SinglePass微博话题检测算法。该方法利用同义词典进行特征扩展;提出了融合了余弦相似度、雅各比相似度和语义相似度的组合相似度策略;采用双阈值和动态主题模型策略,并结合微博发帖人之间存在的相互关注等结构化信息、帖子之间转发评论等内在关联关系辅助进行话题检测。实验表明:采用组合相似度策略的检测效果比采用单一相似度策略更好;与MB-InC、MB-InK等检测算法相比,MB-SinglePass算法显示了更优的检测性能。(4)在微博话题追踪方面,针对训练样本稀少的问题,提出了SA-MBLDA微博话题追踪方法。该方法基于主题概率思想,引入了相关人主题兴趣隐含变量,并利用微博中原帖与转发评论帖子之间的话题关联关系来构建话题训练模型;设置了相关度反馈阈值以选择参与话题模型重构的帖子;采用动态反馈步长,实现了自适应话题重构;并使用新旧话题模型加权的方法,减少了话题模型重构误差。实验表明:SA-MBLDA方法的追踪性能优于基于LDA模型的追踪方法。
其他文献
复杂网络理论已经在许多领域被越来越多地运用,本文将复杂网络的有关模型和理论运用在风险投资领域,建立了风险投资领域中不同的四种网络,即以风险投资公司为节点的两类网络
本文主要研究了内蒙古农村居民收入消费情况及影响收入消费变化的一些主要因素,通过研究内蒙古农民收入消费情况,目的是提高内蒙古农村居民的生活水平,促进内蒙古农村地区经
宗璞作为很早出道的小说家,文学收获颇丰,纵观她的小说成果发现,她主要涉及知识分子题材,知识分子是她言说历史的载体。《红豆》和《野葫芦引》虽然是她不同时期的创作成果,
作为新一代的电子银行服务,手机银行让手机成为一个掌上银行柜台,用户可随时随地体验各项金融服务。与传统银行相比,手机银行打破了传统银行业务办理的地域、时间限制,能随时
隐私权是公民的合法权利。人事管理者在人才引进、考核选拔、人才流出等环节面临着大量直面员工隐私的环节。笔者认为,人力资源管理者在做好员工的隐私管理工作的过程中要注意
基于模型产汇流机理,分析对比水文模型适用性,建立考虑气候特征、下垫面条件和人类活动影响的流域水文模型识别的指标体系,并以辽宁东部各中小流域为研究对象进行实例研究。
红外小目标检测是红外搜索与跟踪系统、精确制导系统、自动目标识别(automatic target recognition, ATR)系统中的一项关键技术。ATR系统的主要任务是对静止和运动目标进行检
随着社会经济的不断发展,人们的各项需求逐步得到满足,人们对残疾预防的要求、康复服务的需求、康复保障的渴求与日俱增。残疾人“人人享有康复服务”目标的提出,为残疾人康复事
在全球经济一体化影响下的今天,中国毋庸置疑地已经成为了第三方物流发展最为迅猛的国家。与此同时,随着全球贸易自由化的不断推进,我国的对外贸易也发展迅速,陆续出现了一批
以高山峡谷区白龙江上游降扎河段为例,采用市场价值法、机会成本法等评价方法,研究了该河段小水电梯级开发对河流生态系统服务功能的影响。结果表明,河流生态系统各项服务功