论文部分内容阅读
在线学习是指一个学习系统能不断地从新样本中学习到新的知识,并且还能够保留大部分以前已经学习到的知识。在当今数字化信息时代,随着各行各业数据规模的不断增加,对时间和空间资源的需求也在不断增加,所以研究在线学习就成为一种迫切需求。目前主题模型的在线学习算法在精度和速度上都不是很理想,因此本文以海量数据和流数据为研究对象,着重研究基于概率潜在语义分析(PLSA)模型和潜在狄利克雷分布(LDA)模型更高效的在线学习算法,其创新点主要体现在以下几个方面:1)针对当前所面临的海量数据和流数据,离线算法会因为内存不足和数据集不能完整获取而无法解决文档分类的问题,因此本文提出的在线学习算法首先对海量数据进行切分,然后对切分后的若干独立段逐个训练,并且采用前段的结果参数计算当前数据段的梯度下降。2)提出基于PLSA模型改进因子图表示的在线消息传递(OBP)算法。PLSA模型是一种简单的文档分类方法,然而针对海量数据和流数据,PLSA模型无法继续采用传统的离线算法解决文档分类的问题,虽然现在已经提出相应的在线学习算法,但是仍然不能满足快速和准确的要求,所以本文提出了基于PLSA模型改进因子图表示的OBP算法。四组公共大规模数据集和三组百度真实海量数据集上的实验,都表明在时间和空间复杂度上OBP算法均优越于当前所流行的基于PLSA模型的OEM算法。3)提出基于LDA模型改进因子图表示的在线消息传递(OBP)算法。针对PLSA模型在处理海量数据时,模型中参数的个数随文档数和单词数呈线性增长,从而导致PLSA模型的在线学习算法在处理海量数据时非常复杂这一问题,因此本文提出了基于LDA模型改进因子图表示的OBP算法,并且从理论上证明了OBP算法的收敛性,通过实验验证该算法的高效性。4)提出了在线消息传递的主题追踪算法。针对训练的过程中因数据流不断地流入,导致每段的主题也跟随着不断的变化这一问题,本文提出了在线消息传递的主题追踪算法。算法通过对流数据的不断训练,给出当前最热冷门主题,并更准确地预测各个主题的变化趋势等。