Web日志中加权序列模式挖掘研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:chaoyuemengxiang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是在指定的序列数据集中发现满足最小支持度的所有频繁序列,目前在电子商务领域中获得了广泛的应用。传统序列模式挖掘算法存在两个缺点:第一,对所有序列和所有项同等对待,而实际上序列和项具有不同的重要性;第二,传统序列模式挖掘算法在面临大数据集时,仍产生大量的候选序列;传统算法只能通过提高最小支持度来减少产生的候选序列,而没有提供其他途径。Web日志中序列模式挖掘过程包括数据集收集、数据集预处理、发掘模式和分析模式,挖掘过程中每个步骤结果作为下一步骤的输入数据,所以每个步骤均会影响到最终的模式结果。本文在研究分析SPAM算法和WARM算法的基础上,结合两者的优点提出了WSPAM算法。WSPAM算法有两个主要特点:第一,WSPAM算法引入权值来挖掘出少量且重要的序列模式,针对引入权值时向下闭包属性失效问题,使用WARM算法的加权支持度来解决;第二,WSPAM算法采用TPV_Set(事务位置向量集)结构表示序列,改善了SPAM占用内存大的缺点。最后本文实现了挖掘原型系统,分别采用模拟数据集和真实日志数据集对WSPAM算法和SPAM算法进行了测试,实验表明,WSPAM适用于要求内存效率高的场景,SPAM适用于要求时间效率高的场景。
其他文献
随着以Docker为代表的容器技术兴起,开发者能够将应用封装成标准的容器镜像统一发布到不同的云计算平台。为了部署和编排容器化应用,一些面向容器的资源管理系统相继被推出。
随着网络多媒体技术的飞速发展,Internet已逐步从单一的数据传输网向数据、语音、图像等多媒体信息的综合传输网演化。传统的提供尽力而为服务的网络,已无法满足各种应用对网
随着计算机科学的不断发展,大量的原始数据被收集并存储到计算机中,而数据处理能力的低下,造成了信息丰富、知识贫乏的现状。数据挖掘正是应此要求而迅速发展起来的一门学科。经
P2P技术由于其固有的非集中性、自治性、可扩展性和容错性等优点,以被广泛地应用在文件共享系统中。但P2P网络又因为其开放性,匿名性,动态性的特点带来了很多安全问题。用户
多核/众核处理器具有更高效的访存通道,以满足大量运算核心对数据访问带宽的需求。并行程序的数据访问模式直接决定了数据一致性的维护开销,而数据一致性开销对于访存带宽利
随着信息技术的迅猛发展,信息需求量呈现爆炸式的增长,传统网络的弊端日益显现,网络资源出现相对稀缺的情况。作为一种新型网络,自治网络具有自感知、自优化、自配置等特性,是下一代网络发展的必然趋势。自治网络对动态异构复杂网络具有良好的管理适应性,能够合理动态地配置网络资源,提高全网的资源利用率。自治网络概念的引入为网络资源管理问题赋予了新的内涵,为基于定价策略的网络资源分配方法提供了良好的实现环境。本文
学位
红外焦平面阵列(IRFPA)非均匀性的存在,极大的限制了成像系统的性能,因此实现红外焦平面阵列非均匀性自适应校正是高级红外探测系统追求的重要目标。基于场景校正方法的优越性
随着互联网技术的快速发展,数据呈现爆炸式增长,信息过载问题越来越引人注目。协同过滤推荐技术在解决信息过载问题方面已经取得了不错的效果,但在实际应用中随着用户和项目
目前,我国销售行业的步伐正在日益加快,尤其是超市销售行业在规模上更是不断的扩大。随着计算机技术的不断飞速发展与普及,超市企业在管理方面也日益趋向于科学化。超市的销售利