论文部分内容阅读
随着Internet应用的迅速发展,网上信息迅速增加,大量的网络信息使人们找到需要的信息更困难了,此种现象称为信息过载。同时,Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。目前大多数搜索引擎由于缺乏主动性,没有考虑用户的兴趣偏好,还不能有效地解决信息过载和信息迷失的问题。Web日志挖掘是研究用户Web浏览行为的主要技术和工具,了解用户的浏览兴趣是提高Web服务质量和改善站点结构设计的重要环节。通过分析和研究用户访问情况的规律,可以识别电子商务的潜在客户,增强服务器质量,并改进Web服务器系统的结构和性能[1,2]。Web挖掘技术的一个重要的研究方向是Web用户聚类和页面聚类,即通过用户对网站的使用信息—Web日志文件的处理和研究,得到具有相似访问兴趣的用户群体和用户共同感兴趣的站点的URL,据此可以判别和调整站点的结构并进行个性化服务[3,4]。而目前的研究均存在一些不足,首先在聚类的相似性度量方面,单纯地以浏览时间或访问次数来度量,对于Web站点这种复杂的情况而言,该聚类是不够准确的。另外,他们均采用传统的聚类技术,即把每个对象严格地划分到某个类中,不能处理类间重叠问题。在本文中,首先介绍Web日志挖掘中数据预处理过程,包括数据净化、用户识别、会话识别、路径补充和事务识别。并分析各个步骤的目的、方法,给出每个步骤的实现算法。然后从用户聚类,页面聚类和频繁访问路径三方面考虑网络浏览模式。给出一些相关定义。并在原有的聚类算法基础上,提出基于向量和模糊集理论的算法,对用户和页面进行有效的聚类,并产生频繁访问路径,从而为用户进行个性化推荐。最后,实现基于Web日志挖掘的推荐系统。