论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文以Web日志记录为基础对Web使用挖掘过程进行了系统的分析和研究,在前人研究的基础上改进并提出了三个新的算法,并将这些算法引入到Web使用挖掘过程中,设计了一个Web日志挖掘原型系统(WLMS)。本文的工作主要有以下几个方面:1、在改进FP-growth算法的基础上,提出挖掘用户频繁访问模式序列的FAS-Mining算法,通过构建FAS-tree,在其上进行挖掘得到最大频繁访问模式序列,进一步转换生成模式分析所需的不同深度的频繁访问模式序列,并分析了相应的增量更新算法,通过实验证明了算法的有效性。2、提出一种快速挖掘Web页面间关联规则的算法,结合网站既有拓扑结构和Web页面信息,定义相应的页面距离,保证页面关联规则有较高的兴趣度,以发现网站设计和用户访问兴趣关联的不一致,为网站结构优化提供有效的决策参考。3、提出一个快速有效挖掘Web日志文件中聚类模式的CLOPE-1算法,从提高用户覆盖面和减少收益值计算量的角度,改进CLOPE聚类算法,并分析了算法的时间和空间复杂度,探讨了算法在Web日志挖掘中的具体应用,并在具有典型结构的合成数据上进行了用户聚类的实验。4、把现有的一些通用的Web挖掘技术及本文提出或改进的算法集成起来,结合关系数据库的特点,完成了一个Web日志挖掘原型系统WLMS的设计工作,阐述了系统整体实现的考虑,并按照挖掘的过程简要介绍了系统的处理流程及各个主要组成模块的接口和功能设计。