面向网络论坛的动态主题建模与文本摘要

来源 :山东大学 | 被引量 : 0次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的发展带来了前所未有的技术革新,而作为一种社交媒体,网络论坛正在成为人们日常交流的重要工具。在网络论坛中,用户通过自己的账户发布和回复信息。一个论坛常常涉及各个方面,诸如文化,体育,政治等等。许多参与度极高的论坛不仅成为了参与用户针对各个问题的发布个人观点的平台,同时也成为了解民意的重要平台,因为各个敏感事件也往往是首先出现在论坛中。然而,如何在网络论坛中追踪动态变化的主题,掌握论坛文档的主要内容,从而更好的更及时的监控与跟踪敏感话题,正在变成一个极具挑战性的问题。同时作为网络论坛的用户,每当浏览网络论坛各个文档的时候,用户往往会为数量众多而冗余度极高的各种帖子所迷惑,从而降低了阅读效率和质量。如何帮助用户快速的理解网络论坛文档的内容,也成为一项富有意义的工作。随着主题模型的提出,近年来,国内外针对网络中出现的主题追踪有了一系列的成果,但是针对诸如网络论坛这种结构复杂的社交媒体中的短文档流,则-直缺乏很好的研究成果。其原因在于论坛文档中容易出现主题依赖,主题漂移的现象。同时由于论坛帖子是短文档,用户的发帖往往并不注意语法,修辞与拼写,这样就导致了这些短文本的语义稀疏性特点。本文针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的动态主题模型:回帖传播模型(Post Propagation Model)。本文在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题。为了更精确的推导模型中出现的参数,本文使用Gibbs EM采样算法来确定动态主题模型的参数,从而推导出网络论坛中动态主题在各个不同事件段的分布情况。为了使用户能更迅速的理解每一篇论坛文档中的主要内容,基于回帖传播模型,本文提出了三种论坛文档摘要方法。通过计算句子中主题权重的之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要。为了优化实验效果,本文在此基础上引入了马尔科夫随机游走模型,并通过主题敏感的排序过程,来重新为文档中的句子赋值来生成摘要。由于缺乏相应的公开实验数据集,本文中作者从目前用户参与度很高的两个论坛中爬取了400篇文档的数据,建立了自己的实验数据集。本文首先检测了主题模型在数据集上的主题建模结果,尤其是针对同一主题在不同时间段的变化。实验结果表明本文所建立的回帖传播模型(Post Propagation Model)具有比LDA等静态主题模型更敏感的主题检测功能。针对网络论坛的摘要,我们对从热门网络论坛总爬取的数据集进行了人工摘要,并引入了在文档摘要技术中被广泛使用的ROUGE评测方法。实验结果表明新方法在各个ROUGE评测标准上均优于其他各种对比的baseline摘要方法。
其他文献
随着我国医疗行业所存在问题的愈发突出,国家的十三五规划提出发展智慧医疗来实现医疗行业运营水平和服务效率的提升。目前,智慧医疗的发展还处于初期阶段,理论和产业的结合
  多值型关联规则是布尔型关联规则的扩展,事务数据库中属性的取值不再是0或1,而是多值型或类别型,因此研究多值关联规则更具有现实意义。   课题的研究内容主要包括:
  在当今社会,信息已成为国家的主要财富和重要的战略资源,对信息的争夺,直接地表现为网络信息的安全与对抗。传统的网络信息安全防护技术如防火墙、信息加密等提供的是一种静
随着科技的飞速发展,特别是传感器技术、通信技术、计算机技术等相关信息技术的发展,信息融合已经广泛的应用于包括军事、金融、生物等多个科技领域。信息融合作为当今科学研究
随着机器人技术的快速发展,机器人的应用也越来越普遍,其在农业方面的应用也越来越广泛。目前国内外的机器人在农业上的应用已经有很多成功的案例,可以预见机器人在农业上应用的
无线传感器网络是大量的或移动的传感器以自组织和多跳的方式构成的无线网络,近年来随着传感器技术、低能耗电子、射频技术的飞速发展,集监测、处理、传输和控制于一体又无基
本文以静态灰度图像为研究对象,主要对信息隐藏置乱技术和空域信息隐藏技术进行了理论研究与实验分析。针对Arnold变换置乱前后图像的灰度直方图不发生任何变化,安全性略显不足
认知无线电是在软件无线电的基础上发展而来的能够自适应外界环境变化的无线通信技术,其核心思想是通过频谱感知和系统的智能学习能力,实现动态频谱分配和频谱共享;博弈论是
在当前的算法框架下,图上的NP难问题不大可能存在多项式时间的精确算法(除非P=NP)。关于NP难问题的研究主要集中在参数算法、近似算法、启发式算法和精确算法等多方面。核心
微博,是通过关注机制分享简短实时信息的广播式社交网络平台。其中包含了大量的突发话题,处理不当会造成谣言的滋生和蔓延,破坏网络秩序,影响社会治安,不利于社会的安定团结。本文