论文部分内容阅读
因特网是一个庞大的、资源丰富的、全球性分布的信息库,它涉及金融、时事、广告、教育、电子商务等许多信息服务。Web包含了丰富的页面内容、动态的超链接信息,以及海量的用户访问信息,这些都可以成为Web数据挖掘的挖掘对象。如何通过这些Web数据获取用户潜在的兴趣和行为模式,以此来为用户提供个性化、智能化的信息服务已经成为每位网站建设者的迫切需求。Web日志挖掘是一种对用户浏览Web页面时产生的日志数据进行挖掘分析,发现隐含的规律性知识的技术。通过这些规律性知识调整站点内容、改善站点结构、改进站点性能、提高站点的服务质量,同时能够及时捕获站点的异常信息,加强网站的安全性。在如今这个网络用户需求不断膨胀的时代,如何提高Web日志挖掘的挖掘效率和挖掘精度,如何开发出更好的日志挖掘产品都是十分值得深入研究的课题。本文主要对Web日志挖掘中的一些关键技术做了深入细致的分析和研究,并设计实现了一个相对通用的Web日志挖掘系统。该系统可以通过对Web日志数据的挖掘,得出用户频繁访问路径间的关联规则,为网站结构的优化提供指导性建议。全文的核心内容有如下三点:1.深入分析了Web日志挖掘的数据预处理步骤中会话识别传统方法所存在的不足,提出了一种基于决策树归纳的会话识别方法。实验证明该方法可以产生真实度更高的会话。2.分析了数据挖掘关联规则中经典的Apriori算法效率低下的原因,提出一个改进的Tran_Apriori算法,该算法相对于原始Apriori算法具有更高的效率。3.设计实现了一个基于Tran_Apriori算法的Web日志挖掘系统。该系统包括数据收集模块,数据预处理模块,模式挖掘模块和结果表示模块。数据预处理模块中使用了基于决策树归纳的会话识别方法进行会话识别,数据挖掘模块中使用了改进的Tran_Apriori算法。并且对挖掘出的用户频繁访问模式进行模式分析,发现了用户频繁访问路径的关联规则,为网站结构的改善提出了相应的建议。