论文部分内容阅读
Web日志挖掘是Web挖掘中重要的研究课题之一。Web日志挖掘的研究对象是Web日志数据。从服务器的观点分析,挖掘的对象是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计。从用户的点击序列分析,可以发现一个用户的使用信息,可帮助实现网页的预存取和缓存。本文所要研究的Web日志挖掘在网站优化中的应用就是对Web使用日志这些半结构化的数据进行预处理后,根据Mark Sweiger和Mark R.Madsen提出的点击流数据仓库模型,并结合就业网站的实际数据,创建了适合实例网站的点击流数据仓库模型,然后运用SQL 2000 Analysis Service中的决策树模型进行数据挖掘,最后对数据挖掘结果进行数据分析,给网站的管理者提供网站结构优化的建议。本文主要在如下的方面做了主要的工作:首先为数据预处理的数据导入、用户识别和会话识别部分提供了详细的算法,WEB日志数据通过这些算法进行预处理后,为数据仓库的建立提供了可靠的准备数据。其次在点击流数据仓库模式建立的问题上,根据前人提供的标准点击流仓库模型,提出了适合实例网站的数据仓库逻辑模型,并在此逻辑模型的基础上,建立相应的物理模型。最后将上述的数据预处理算法和数据仓库模型应用在就业网近两个月的Web访问日志中,然后运用决策树模型分析数据源的各个维,并将分析结果在网站结构的调整中进行应用。