基于聚类划分的关联规则在Web日志挖掘中的应用研究

来源 :武汉理工大学 | 被引量 : 7次 | 上传用户:beargtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务、Web服务以及基于Web的信息系统的快速发展和壮大,基于Web的组织在日常运作中已经收集了大量的Web日志信息。分析并发现这些潜在的规律及知识,对于用户访问、广告投放和个性化服务等应用有着重大的意义。本文将将针对Web日志中半结构化数据集,以发现Web用户访问记录中潜在的规律和知识为目标。以Web日志关联规则挖掘模式为方法,提出了一种改进的基于聚类划分的Web日志关联规则挖掘方法。Web日志挖掘是指自动发现和分析模式、这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其目标是捕捉、建模并分析用户与网站交互的行为模式和模型。所发现的模式经常被表示成有着共同需求或兴趣的一群用户频繁访问的页面、对象或者资源的集合。而对整合好的记录数据进行分析的类型和层次依赖于分析员的最终目标和预期的结果。在本文里,也描述了Web使用记录挖掘领域里最常用的模式发现类型以及分析技术在应用中的实践。本文工作如下:(1)介绍了Web使用日志挖掘的发展背景与国内外发展现状,总结了当前Web使用日志挖掘技术的一些算法,并在已有的算法基础上提出了改进的方向;(2)本文再针对原始Web日志数据的半结构化和冗余特性,提出了日志预处理的一些步骤与方法,针对预处理之后的数据进行了一定的建模,使得后面的挖掘步骤能够有条不紊的进行,也保证了后续挖掘的数据质量;(3)针对Web日志挖掘中的一些关键算法进行了详细的陈述与分析,对算法中存在的劣势也提出了一些改进方向;(4)针对Web日志中的原始关联规则Apriori算法提出了基于聚类划分的Apriori算法,克服了原始算法挖掘规则覆盖率不够高的问题,并且就原始算法和改进的算法做了一个仿真实验,并针对实验后的结果进行了对比分析,验证了改进后的算法在挖掘性能上的提升,最后给出了推荐系统的原型设计。
其他文献
无线传感器网络是最近几年来颇受世界关注的一种网络技术,与当前的移动通信网络、无线局域网等相比较,无线传感器网络具有很大的发展潜力。首先,无线传感器网络是无需基础设
P2P(Peer-to-Peer)技术被视为21世纪计算机技术的热点技术之一,随着网络技术的飞速发展和个人计算机性能的增强,互联网的计算模式正经历着从C/S模式向P2P模式的转变。高效的资源
在现代科学研究和应用领域中,大量的数据是重要的资源。地理上广泛分布的科研工作者或用户都希望能够访问和分析这些庞大的数据。另一方面,海量的科学数据分布在各种自治管理域
传统的人工阅卷缺乏对阅卷过程的有效监督,难以保证考试公平公正的要求,阅卷的对象是纸质试卷,对试卷的运输、保存和查阅等工作需要大量的人力。随着计算机技术、网络技术、
数字图像压缩是图像处理领域的一个热门研究课题,其研究成果为图像的存储、传输带来了极大的便利,因而具有重要的研究价值。在众多的图像压缩方法中,基于小波变换的图像压缩方法
随着游戏产业的飞速发展,3D游戏引擎的研究受到了前所未有的关注。一个好的3D引擎是构成一款高性能游戏的基石,它包含了物理学,计算机图形学,人工智能等多个学科的研究成果。它所
蛋白质结构预测问题是计算生物学领域的核心问题之一,对其求解是后基因时代蛋白质工程的一项重要任务。已经证明,即使按最简化的数学模型,所导出的问题仍然是NP难度的。因此,蛋白
20世纪90年代初,R.Agrawal等人提出了关联规则挖掘技术。关联规则挖掘是为了发现大量数据中项集之间有趣的相关性信息。经过十余年的发展,关联规则挖掘已经成为数据挖掘技术
学位
目前,由于人机交互方式的演变、生物认证和物体检测技术的发展,以及商业及安全领域需求的不断增加,人脸检测与跟踪方向的研究已经在各个领域中得到越来越广的应用。人脸识别