主题模型的在线消息传递算法研究

被引量 : 0次 | 上传用户:xinhongwei678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线学习是指一个学习系统能不断地从新样本中学习到新的知识,并且还能够保留大部分以前已经学习到的知识。在当今数字化信息时代,随着各行各业数据规模的不断增加,对时间和空间资源的需求也在不断增加,所以研究在线学习就成为一种迫切需求。目前主题模型的在线学习算法在精度和速度上都不是很理想,因此本文以海量数据和流数据为研究对象,着重研究基于概率潜在语义分析(PLSA)模型和潜在狄利克雷分布(LDA)模型更高效的在线学习算法,其创新点主要体现在以下几个方面:1)针对当前所面临的海量数据和流数据,离线算法会因为内存不足和数据集不能完整获取而无法解决文档分类的问题,因此本文提出的在线学习算法首先对海量数据进行切分,然后对切分后的若干独立段逐个训练,并且采用前段的结果参数计算当前数据段的梯度下降。2)提出基于PLSA模型改进因子图表示的在线消息传递(OBP)算法。PLSA模型是一种简单的文档分类方法,然而针对海量数据和流数据,PLSA模型无法继续采用传统的离线算法解决文档分类的问题,虽然现在已经提出相应的在线学习算法,但是仍然不能满足快速和准确的要求,所以本文提出了基于PLSA模型改进因子图表示的OBP算法。四组公共大规模数据集和三组百度真实海量数据集上的实验,都表明在时间和空间复杂度上OBP算法均优越于当前所流行的基于PLSA模型的OEM算法。3)提出基于LDA模型改进因子图表示的在线消息传递(OBP)算法。针对PLSA模型在处理海量数据时,模型中参数的个数随文档数和单词数呈线性增长,从而导致PLSA模型的在线学习算法在处理海量数据时非常复杂这一问题,因此本文提出了基于LDA模型改进因子图表示的OBP算法,并且从理论上证明了OBP算法的收敛性,通过实验验证该算法的高效性。4)提出了在线消息传递的主题追踪算法。针对训练的过程中因数据流不断地流入,导致每段的主题也跟随着不断的变化这一问题,本文提出了在线消息传递的主题追踪算法。算法通过对流数据的不断训练,给出当前最热冷门主题,并更准确地预测各个主题的变化趋势等。
其他文献
在知识经济时代,高科技产业是促进生产力发展的最具活力的因素,也是各国综合国力竞争的焦点。高科技产业具有与传统产业不同的特征:如知识和技术密集、研发投资大、附加值高
<正> 人类社会的发展和进步,一个国家和民族要想跻身于世界之林,就要不断地提高其民族的素质。其中不仅包括道德品质和文化科学技术素质,同时也包括与之相适应的身体素质,也
结合 50MVA 静止同步补偿器的研制,建立了基于链式逆变器的 STATCOM 直流电容电压稳态数学模型,揭示了电容电压不平衡现象产生的机理,分析了控制直流电压平衡的手段,提出了一
中国的消费结构正在发生巨大的变化,80后、90后总人数已接近4亿,年轻一代成为消费的新生力量。随之而来的媒体传播环境的变化,使已经“功成名就”的众多品牌面临巨大挑战:苹果火
报纸
1579—1584年间,有几批西班牙人从马尼拉来到澳门,揭开了大航海时代澳门与马尼拉关系的序幕,其中著名的有1579年的阿尔法罗冒险队、1582年的桑切斯使团和1584年的罗马诺使团
本文是一篇国际建设工程翻译项目报告,研究对象为《中铝萨帕新建特种铝材生产线项目标书》(Greenfield Production Line Construction Project for Sapa ChalcoAluminumProduct
目的探讨垂体腺瘤合并蝶窦脓肿的临床特点、手术疗效与预后。方法回顾性分析7例垂体腺瘤合并蝶窦脓肿病人的临床资料,均行手术一期清除蝶窦脓肿和二期经蝶入路切除垂体腺瘤,
植物多酚具有抗氧化、抗癌、抑菌抗病毒、抑制心脑血管疾病等多种生物活性,是近年食品科学及生物医学研究的热点。我国橡子资源非常丰富,为了充分利用橡子资源,本实验以橡子
近年来,随着信息科学的飞速发展,特别是与互联网、生物医学和社会化计算等新兴领域的结合,海量数据分析与处理成为目前信息科学领域亟待解决的重要问题,尤其是如何有效处理各
产业特点和政策限制等因素决定了文化产业投融资难于其它产业,对文化产业投融资进行引导鼓励是促进文化产业快速发展的必要条件。欧美产业发达国家采取了文化产业优惠、国际