论文部分内容阅读
互联网的高速发展,使其成为媒体信息的巨大载体。但面对着这些爆炸式增长的数据,每个用户不再满足于传统的索引、浏览和检索方式,他们想更快捷地获取大量感兴趣的信息并跟踪相关事件的发展。因此,如何自动检测这些海量信息中所隐含主题及其演变过程成为现代网络背景下的迫切需求,也是近年来国际国内的研究热点。
为了解决在主题演变分析过程中需要充分利用文档之间所存在时序关联性特点的这一问题,本文在监督式LDA(Supervised Latent Dirichlet Allocation,SLDA)模型基础上,将文档之间的时序关系引入SLDA中,提出了称为在线监督式LDA(Online Supervised LDA,OSLDA)的主题建模方法。OSLDA有效地利用了文档中所具有的时序和类别信息,从而能提高主题挖掘精度。
同时,本文分析计算出主题的类别属性,并利用JS(Jensen-Shannon)散度来衡量同一类别下主题之间的相似度。最后计算这些主题在各时刻的强度、相关文本来更好地展示主题的演变。
在纽约时报数据集上的实验表明,本文提出的算法在主题的挖掘上较传统算法有了显著提高,并能很好地检测主题之间的演变关系。