论文部分内容阅读
随着电子商务、Web服务以及基于Web的信息系统的快速发展和壮大,基于Web的组织在日常运作中已经收集了大量的Web日志信息。分析并发现这些潜在的规律及知识,对于用户访问、广告投放和个性化服务等应用有着重大的意义。本文将将针对Web日志中半结构化数据集,以发现Web用户访问记录中潜在的规律和知识为目标。以Web日志关联规则挖掘模式为方法,提出了一种改进的基于聚类划分的Web日志关联规则挖掘方法。Web日志挖掘是指自动发现和分析模式、这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其目标是捕捉、建模并分析用户与网站交互的行为模式和模型。所发现的模式经常被表示成有着共同需求或兴趣的一群用户频繁访问的页面、对象或者资源的集合。而对整合好的记录数据进行分析的类型和层次依赖于分析员的最终目标和预期的结果。在本文里,也描述了Web使用记录挖掘领域里最常用的模式发现类型以及分析技术在应用中的实践。本文工作如下:(1)介绍了Web使用日志挖掘的发展背景与国内外发展现状,总结了当前Web使用日志挖掘技术的一些算法,并在已有的算法基础上提出了改进的方向;(2)本文再针对原始Web日志数据的半结构化和冗余特性,提出了日志预处理的一些步骤与方法,针对预处理之后的数据进行了一定的建模,使得后面的挖掘步骤能够有条不紊的进行,也保证了后续挖掘的数据质量;(3)针对Web日志挖掘中的一些关键算法进行了详细的陈述与分析,对算法中存在的劣势也提出了一些改进方向;(4)针对Web日志中的原始关联规则Apriori算法提出了基于聚类划分的Apriori算法,克服了原始算法挖掘规则覆盖率不够高的问题,并且就原始算法和改进的算法做了一个仿真实验,并针对实验后的结果进行了对比分析,验证了改进后的算法在挖掘性能上的提升,最后给出了推荐系统的原型设计。