Web日志中序列模式挖掘算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qq978458283
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着internet的飞速发展,电子商务网站的增多,积累了大量的web日志数据,如何从这些海量的日志文件里找到用户访问站点的行为习惯和兴趣爱好,已成为了web日志挖掘的研究热点。Web频繁序列模式挖掘是web日志挖掘的一个重要研究分支,它挖掘用户访问web站点的频繁页面和频繁路径,挖掘这些有趣的模式对于网站调整组织结构以适应用户的访问习惯是很重要的。在这个竞争激烈的电子商务环境中,优化网站的组织结构也是吸引和挽留用户的重要手段。挖掘这些有趣模式还可以为用户提供个性化服务,推荐他们可能喜欢的商品。此外,在挖掘的频繁路径上投放广告可以使更多的用户访问到广告。因此,web频繁序列模式挖掘的研究对于电商网站的发展是非常重要的。本文的主要研究内容和成果如下:①在PLWAP算法的基础上,研究提出了一种在空间复杂度方面改善较明显的算法RLDWAP。为避免经典的WAP算法需要递归构建大量条件树这一缺陷,PLWAP算法使用位置码来判断两个节点在树中的位置关系,在树中每个节点的父节点位置码之后附加1作为当前节点的位置码,在最近的左兄弟节点的位置码之后附加上0作为其右兄弟节点的位置码,因此当树的深度或宽度很高时,该位置码会变得很长,存储每个节点的位置码需要消耗更多的空间,读取位置码需要遍历指针。针对该问题,在PLWAP算法的基础上提出了RLDWAP改进算法,该算法采用RLD遍历(右子树-左子树-根的遍历次序)WAP-Tree,并在遍历的同时记录下当前节点的最后一个子孙节点,使用RLD遍历序号和当前节点的最后一个子孙节点的遍历序号就可以判断两个节点在树中的关系,以此减少存储每个节点的空间和判断两个节点位置关系的时间。②为适应不同应用需要,在PLWAP算法的基础上,研究提出了另一种在时间复杂度方面改善较明显的算法BCWAP。分析PLWAP的头表构造过程可以发现,其在每次递归挖掘过程中保持不变,并且头表是将表里的每个项集与其在树中标识相同的所有节点连接为一个队列,每次在后缀树中寻找项集的首节点时,都需要从队列的第一个节点开始遍历,对后缀树以上的节点判断是没有必要的。针对该问题,结合RLD遍历序号标识节点的位置关系,BCWAP改进算法通过在每次递归挖掘过程中重新构造后缀树的头表,并且只将头表中的每个项集与其在树中对应的首节点连接为一个队列,减少了在当前频繁序列的后缀树中寻找首节点的时间。由于需要在每次递归过程中构造头表,BCWAP在空间方面的性能介于PLWAP和WAP之间。③对改进算法进行了性能分析和实验论证。通过将改进算法与PLWAP、WAP和NGCWAP算法进行了实验对比和结果分析,分别从时间复杂度方面和空间复杂度方面,验证了两种改进算法的准确性和有效性。
其他文献
随着计算机网络技术的发展,对重要或敏感信息的安全保护问题日益严峻。秘密共享是信息安全和数据保密中的重要手段之一,它能够将责任分散,从而提高了系统的安全性。本文首先
伴随着计算机网络技术的高速发展,人类社会的高度信息化已成为一种趋势,网络中的安全问题也逐渐的凸显出来,这引起人们极大的关注。入侵检测作为计算机安全领域中一个重要组
智能网(IN,Intelligent Network)是在原有通信网的基础上,为了快速方便提供新业务而设置的一个叠加网络。CAMEL(Customized Application for MobileNetwork Enhanced Logic)
随着基于构件软件开发技术的迅猛发展,构件库变得越来越复杂,对构件的学习和检索提出了更高的要求。序列模式发现是在给定时间窗口内的序列集中挖掘所有最长频繁序列的过程。
随着数字技术和因特网的发展,网络安全问题日益突出,计算机网络的主要特点是开放性与资源共享,而由此引发的问题也十分严重,如作品侵权、复制、篡改、传播变得更加方便。数字水印
随着计算机科学技术的发展、Internet的应用普及以及多媒体数据库的迅速增加,我们拥有了海量的数字图像和视频信息。为了有效的管理和检索这些信息,基于内容的图像检索(Conte
近年来,随着网络技术的迅速发展和J2EE平台的广泛采用,基于B/S的多层Web体系结构逐渐发展成熟起来。MVC(Model-View-Controller)设计模式能够克服传统Web应用开发方式所固有
在道路交通管理中,为了获得车辆的运动数据,早期经常采用的是感应线圈等硬件测量的方法。而如果采用摄像头拍摄的道路视频,再用计算机软件处理的方法,则可以极大的增加方便性
软件的不断发展,给后续的开发带来了困难,并且对软件可维护性提出了挑战。运用软件工程的手段和设计模式的方法可以缓解这些问题。设计模式作为面向对象软件设计经验的总结,
虚拟器官的建模与仿真是当前国际上研究的前沿课题。眼睛作为人体中一个极为精密且十分重要的器官,其建模与仿真的实现具有十分重要的意义。角膜是人眼的重要组成部分,角膜的