在线监督式主题建模及其演变分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:k5105320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展,使其成为媒体信息的巨大载体。但面对着这些爆炸式增长的数据,每个用户不再满足于传统的索引、浏览和检索方式,他们想更快捷地获取大量感兴趣的信息并跟踪相关事件的发展。因此,如何自动检测这些海量信息中所隐含主题及其演变过程成为现代网络背景下的迫切需求,也是近年来国际国内的研究热点。   为了解决在主题演变分析过程中需要充分利用文档之间所存在时序关联性特点的这一问题,本文在监督式LDA(Supervised Latent Dirichlet Allocation,SLDA)模型基础上,将文档之间的时序关系引入SLDA中,提出了称为在线监督式LDA(Online Supervised LDA,OSLDA)的主题建模方法。OSLDA有效地利用了文档中所具有的时序和类别信息,从而能提高主题挖掘精度。   同时,本文分析计算出主题的类别属性,并利用JS(Jensen-Shannon)散度来衡量同一类别下主题之间的相似度。最后计算这些主题在各时刻的强度、相关文本来更好地展示主题的演变。   在纽约时报数据集上的实验表明,本文提出的算法在主题的挖掘上较传统算法有了显著提高,并能很好地检测主题之间的演变关系。
其他文献
查询处理技术是无线传感器网络研究的核心,而近年来随着无线传感器网络技术的发展与成熟,日益严重的隐私问题已经逐步成为制约无线传感器网络查询处理技术研究的瓶颈问题。因此
近年来,数据中心(Data Center)的高速发展和和Mapreduce/Hadoop框架的日益重要,云提供商把越来越多的大数据放到云系统中处理。在现代基于虚拟化的数据中心上,虚拟机分配是实
正电子发射断层(PET)是一种无创的能够再现体内生物分布的分子成像技术,是现代生物医学成像中最高层次的成像技术之一,在临床诊断、生物医学研究和癌症普查等方面有重大意义
本文主要是针对当前基于时间序列模型的集成产品在实际应用中灵活性差、模型软件复杂难以维护、模型缺乏对分布环境的支持、不支持超大规模模型集成计算等缺点,提出了分布式的
随着计算机网络和数据库技术的飞速发展,数据和信息呈现出了一些新的特征:第一,积累的速度更加快速、更新的频率更加频繁;第二,数据和信息的规模越来越庞大;第三,数据分布的范围
自动指纹识别技术是目前生物特征识别中最典型、应用最广泛的技术,有着其他手段不可比拟的优越性。它大致包括指纹图像预处理(增强和锐化、二值化、细化)、特征提取和特征匹
在未来战争中,多主体协同作战是发展的必然趋势,在多主体协同工作系统中资源调度算法是核心。论文首先从协同系统的角度对多主体协同作战资源调度问题的关键要素进行了分析,根据
科技项目评价是指按照规范的程序和公允的标准对科技项目进行的评判活动。科技项目在我国科技资源配置中占较大的份额,项目的立项、研究过程及最终成果直接影响和推动着科学
随着摄影、照相等相关硬件技术的不断发展,在电影、游戏、医疗等领域,三维技术得到了广泛的应用。相比于二维图像,三维图像具有更多的空间信息且贴近人们的生活。近年来,在计算机
传统的基于内容的图像相似检索技术在结果的准确率方面已经进入到一定瓶颈,如何通过图像的其它附属信息(如:描述、评论、作者以及各种属性)来增强相似搜索结果的准确性是本文