微博突发话题检测方法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:w9iij9ijwhr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博,是通过关注机制分享简短实时信息的广播式社交网络平台。其中包含了大量的突发话题,处理不当会造成谣言的滋生和蔓延,破坏网络秩序,影响社会治安,不利于社会的安定团结。本文分析了微博的信息特点、传播特点和国内外研究现状,提出一种微博突发话题检测方法。采用特征词探测窗口与微博文本筛选窗口相结合的双窗口策略提取具有潜在突发性的微博短文本,探测窗口计算特征词步调的复合权重并保留权重大于窗口中权重阈值的特征词,筛选窗口利用探测窗口保留的特征词对筛选窗口中的文本进行筛选。对特征的权重计算采用基于语义的 TF-IDF 函数,微博短文本用基于语义的向量空间模型来表示。在文本聚类方法上采用融入子话题的Single-Pass聚类算法,最终聚类得到突发话题。实验中计算聚类结果的召回率、准确率、F值以及同传统Single-Pass对比的误检率、错检率、误测开销值。实验结果表明,本文提出的方法可以有效检测微博中的突发话题。
其他文献
随着软件规模的不断扩大,分析和解决软件中的问题变得越来越困难。程序切片作为一种分解程序的技术,能有效地将问题简化,在软件度量、软件测试、程序验证等软件工程的许多领
随着我国医疗行业所存在问题的愈发突出,国家的十三五规划提出发展智慧医疗来实现医疗行业运营水平和服务效率的提升。目前,智慧医疗的发展还处于初期阶段,理论和产业的结合
  多值型关联规则是布尔型关联规则的扩展,事务数据库中属性的取值不再是0或1,而是多值型或类别型,因此研究多值关联规则更具有现实意义。   课题的研究内容主要包括:
  在当今社会,信息已成为国家的主要财富和重要的战略资源,对信息的争夺,直接地表现为网络信息的安全与对抗。传统的网络信息安全防护技术如防火墙、信息加密等提供的是一种静
随着科技的飞速发展,特别是传感器技术、通信技术、计算机技术等相关信息技术的发展,信息融合已经广泛的应用于包括军事、金融、生物等多个科技领域。信息融合作为当今科学研究
随着机器人技术的快速发展,机器人的应用也越来越普遍,其在农业方面的应用也越来越广泛。目前国内外的机器人在农业上的应用已经有很多成功的案例,可以预见机器人在农业上应用的
无线传感器网络是大量的或移动的传感器以自组织和多跳的方式构成的无线网络,近年来随着传感器技术、低能耗电子、射频技术的飞速发展,集监测、处理、传输和控制于一体又无基
本文以静态灰度图像为研究对象,主要对信息隐藏置乱技术和空域信息隐藏技术进行了理论研究与实验分析。针对Arnold变换置乱前后图像的灰度直方图不发生任何变化,安全性略显不足
认知无线电是在软件无线电的基础上发展而来的能够自适应外界环境变化的无线通信技术,其核心思想是通过频谱感知和系统的智能学习能力,实现动态频谱分配和频谱共享;博弈论是
在当前的算法框架下,图上的NP难问题不大可能存在多项式时间的精确算法(除非P=NP)。关于NP难问题的研究主要集中在参数算法、近似算法、启发式算法和精确算法等多方面。核心