大规模主题建模方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:you2245g
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据量按照其本身的发展速度在急剧增加,并且数据类型多样。这些大数据带来的使用价值和商业价值巨大,在搜索引擎、推荐系统、在线广告等方面都有着重要的作用。然而,大数据对数据实时处理要求极高,传统的技术架构已经无法高效处理海量数据,在速度和精度等方面都存在缺陷。因此,本论文主要研究精准、高效的方法来进行大数据的数据挖掘。在各类网络数据中,文本数据信息占据着主要的地位。因此,各类处理文本的主题模型被相继提出。主题模型能够无监督地学习出文本的主题含义,其应用领域覆盖了文本挖掘和信息处理的所有领域。其中,对潜在狄利克雷分配(latent Dirichlet allocation, LDA)主题模型的研究最为普遍,很多并行LDA模型被相继提出。然而,在大数据大主题下,简单的并行LDA模型无法有效运行,在时效性与可扩展性方面有所不足。并行LDA将数据集划分为多个小块,利用多进程分别对每块进行参数更新,然后进程之间通过通信来交互信息,从而得到全局的参数。然而低效的通信方式导致通信时间占总时间的百分比随着进程的增多而越来越大,使得并行LDA的加速比在一定进程数时达到停滞状态。此外,并行LDA模型的空间复杂度与数据集文档的大小、单词表的大小以及主题数目的大小有关。而大规模主题模型的这三个参数都较大,由于机器内存的限制,无法将全部参数放入内存导致无法构建大规模主题模型。本文针对并行LDA模型精度差、通信时耗大、内存消耗多的缺点,提出并行在线LDA模型。其中使用的近似推理参数估计算法是置信传播算法(belief propaga-tion, BP),该算法在精度上优于其他算法,例如吉布斯采样(Gibbs sampling, GS)。我们将本文的并行模型记为POBP (parallel online BP)。基于幂法则(power law),将模型参数分为高效元素与非高效元素,POBP动态选取高效元素来进行通信,将通信量降低为原始的1%,有效降低了并行的通信代价。与此同时,由于该策略只需要同步部分的参数元素,所以同样也降低了模型参数更新的复杂度。其次,通过使用在线学习策略,流式处理数据集,使得模型内存消耗与文档的数目无关,将内存消耗降为可控制的固定的大小,使得POBP能够训练大规模的数据。本文在搜索引擎信息检索应用上使用POBP以及parallel GS (PGS)进行相关验证。本文分别使用POBP和PGS对搜索引擎用户的查询词以及网页文本进行两种语义解释,一种使用预测文档的主题分布来替换原始向量空间模型(vector space model, VSM)得到的向量,另一种使用文档的单词重构来替换。实验结果表明文档的主题解释能够有效提高信息检索的性能。
其他文献
随着网络技术和多媒体技术的飞速发展,如何保护多媒体信息的安全成为国际上研究的热门话题,数字水印技术应运而生。作为保护数字作品版权的一种重要手段,该技术已成为当今学
自动化人脸识别技术在国家安全、军事安全、公共安全和家庭娱乐等领域具有广泛的应用前景。虽然人类可以毫不费力地识别出人脸和表情,但是机器自动识别确是一个极具挑战的难
计算机技术的迅猛发展使得企业办公自动化水平逐步提高,而企业内部管理水平的发展速度往往滞后于企业的其他方面。因此,如何提高一家企业的信息化管理能力,协调其内部管理和外部
随着芯片技术、通信技术和传感技术的飞速发展,目前传感技术正迈入无线传感器网络新时代。这种网络由大量集成有传感器、数据处理单元和无线通信模块的微小节点组成,通过自组
随着图书文献资源数字化进程的不断推进,各高校图书馆、情报单位各种外购和自建的数据库越来越多,为了获取完整的数字资源,资源用户不得不花费大量的时间在各个资源系统的切
蛋白质相互作用预测是分子生物学中一个重要的部分。蛋白质之间的相互作用是蛋白质功能方面最重要的特征,它在生物的生命活动中起着举足轻重的作用。在蛋白质相互作用的背后隐
随着社会经济的高速增长,居民拨打报警电话进行求助呈不断上升趋势;同时,重大人为灾害、自然灾害、大规模疫情、重大责任事故和大规模围捕行动等都需要多警种协调处警、统一调度
办公自动化系统是由各种办公设备与办公人员构成的信息系统,它服务于某种目标,不断使人们的部分办公业务活动借助于这些设备。系统的最终目的是尽可能地充分利用信息资源提高生