论文部分内容阅读
在大数据时代,数据量按照其本身的发展速度在急剧增加,并且数据类型多样。这些大数据带来的使用价值和商业价值巨大,在搜索引擎、推荐系统、在线广告等方面都有着重要的作用。然而,大数据对数据实时处理要求极高,传统的技术架构已经无法高效处理海量数据,在速度和精度等方面都存在缺陷。因此,本论文主要研究精准、高效的方法来进行大数据的数据挖掘。在各类网络数据中,文本数据信息占据着主要的地位。因此,各类处理文本的主题模型被相继提出。主题模型能够无监督地学习出文本的主题含义,其应用领域覆盖了文本挖掘和信息处理的所有领域。其中,对潜在狄利克雷分配(latent Dirichlet allocation, LDA)主题模型的研究最为普遍,很多并行LDA模型被相继提出。然而,在大数据大主题下,简单的并行LDA模型无法有效运行,在时效性与可扩展性方面有所不足。并行LDA将数据集划分为多个小块,利用多进程分别对每块进行参数更新,然后进程之间通过通信来交互信息,从而得到全局的参数。然而低效的通信方式导致通信时间占总时间的百分比随着进程的增多而越来越大,使得并行LDA的加速比在一定进程数时达到停滞状态。此外,并行LDA模型的空间复杂度与数据集文档的大小、单词表的大小以及主题数目的大小有关。而大规模主题模型的这三个参数都较大,由于机器内存的限制,无法将全部参数放入内存导致无法构建大规模主题模型。本文针对并行LDA模型精度差、通信时耗大、内存消耗多的缺点,提出并行在线LDA模型。其中使用的近似推理参数估计算法是置信传播算法(belief propaga-tion, BP),该算法在精度上优于其他算法,例如吉布斯采样(Gibbs sampling, GS)。我们将本文的并行模型记为POBP (parallel online BP)。基于幂法则(power law),将模型参数分为高效元素与非高效元素,POBP动态选取高效元素来进行通信,将通信量降低为原始的1%,有效降低了并行的通信代价。与此同时,由于该策略只需要同步部分的参数元素,所以同样也降低了模型参数更新的复杂度。其次,通过使用在线学习策略,流式处理数据集,使得模型内存消耗与文档的数目无关,将内存消耗降为可控制的固定的大小,使得POBP能够训练大规模的数据。本文在搜索引擎信息检索应用上使用POBP以及parallel GS (PGS)进行相关验证。本文分别使用POBP和PGS对搜索引擎用户的查询词以及网页文本进行两种语义解释,一种使用预测文档的主题分布来替换原始向量空间模型(vector space model, VSM)得到的向量,另一种使用文档的单词重构来替换。实验结果表明文档的主题解释能够有效提高信息检索的性能。