大规模网站日志的并行分析技术研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:ghanfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。随着日志数据规模的增长,日志分析的可扩展性技术研究成为日志分析的研究方向。频繁模式挖掘是日志分析的基础应用,本文侧重研究集合频繁模式和序列频繁模式挖掘的可扩展性技术方法,分别通过基于磁盘的MapReduce平台和基于内存的Spark平台实现海量日志频繁模式的并行挖据,解决日志数据的分割和并行挖掘的负载均衡,以及分布式环境下大规模候选数据的支持度计数等问题,具体研究内容包括:(1)针对Web日志数据预处理的关键阶段—事务识别,提出一种基于候选路径的事务识别算法,主要思想是用空间换时间,与基于用户访问树的算法相比,将对日志数据的两次遍历降为一次,节省了遍历用户访问树的时间开销。(2)研究基于压缩结构FP-Tree的日志集合频繁模式并行挖掘,提出一种近似负载均衡的并行FP-Growth算法,利用item的最大前缀路径长度的上界来衡量挖掘item的条件模式树的工作量,工作量的近似值用于负载分组,所有计算节点根据分组结果并行地进行数据库的划分。与完全负载均衡的并行FP-Growth算法相比,无需构建全局FP-Tree,消除了数据划分过程中的单点局限,兼顾了负载的计算分配和整个计算过程的负载均衡。(3)研究日志序列频繁模式的并行挖掘,提出一种基于Spark的并行AprioriAll算法。首先,迭代过程中的数据扫描可以直接在内存中的RDD上进行,不用去扫描硬盘。其次,计算过程中的中间结果也可以直接持久化到RDD,下一步的计算可以直接从内存中读取数据。最后,对于分布式环境下大规模候选数据的支持度计数问题,提出了基于reduce端join的数据划分方案。与基于MapReduce的并行AprioriAll算法相比,整个计算过程节省了大量的磁盘IO和数据Shuffle。(4)最后,通过实验验证,基于候选的事务识别方法可以有效应对大规模日志的事务识别,近似负载均衡的并行FP-Growth算法拥有比较好的性能优势,且稳定性更好,基于Spark的并行AprioriAll算法拥有更好的性能和扩展性。
其他文献
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶
美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确
时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。  当前新词识别
随着国内投资风气的兴起,越来越多的人关注金融信息。在众多的金融产品中,股票的投资回报率最高,因此关注股票的投资者最多。那么,挖掘出和股票相关的资讯就变得很有必要。而
传统的接触式掌纹识别系统,在手指之间设计了固定杆,用于固定手掌的位置,这样可以减少图像采集过程中由于平移、旋转、扭曲引起的误差和失真,降低了图像处理和定位算法的复杂
脉象蕴含着人体丰富的器官信息,通过切脉即可感知人体脏腑的病理变化。但是长期以来中医理论对脉象的描述主观性太强,较模糊和笼统,医师要熟练掌握脉诊需要长期经验积累。所
随着社会的快速发展,人们对安全的要求越来越高,尤其是在涉及国家安全、金融、政法、电子商务等行业或领域时显得尤为重要。在这种情况下,就需要一种安全可靠的认证方法。生
随着因特网技术的不断发展,网络信息已经逐步成为人们学习、工作和生活中不可或缺的重要组成部分。网络提供了大量的文本信息,如新闻、博客、论坛、微博等。这些非结构化的数