论文部分内容阅读
随着互联网的发展,Web不仅实现了全球的信息交换和资源共享,而且Web上的信息量也成指数级的增长。一方面,海量的Web信息为用户提供了获取信息的源泉;另一方面,如何高效的从海量的信息中获取有价值的信息也成了Web用户面临的一个严重挑战。Web用户聚类的最终目标就是从海量的用户访问日志记录信息中挖掘出有价值的信息,从而为用户提供优质的服务。目前,Web使用挖掘技术已经成功应用在商业智能、Web站点结构的改善、个性化服务推荐等领域。作为Web使用挖掘的一个研究点,Web用户聚类旨在发现具有相似行为的用户,从而为个性化服务的推荐、Web站点拓扑结构的改善等方面提供帮助。在Web用户的聚类研究中,大多数的研究主要是将传统的聚类算法应用于Web用户的聚类问题上。然而,传统的聚类算法,如K中心点,只能产生一个局部最优解,对大规模的Web用户聚类问题显得力不从心。针对此类情况,目前已经有很多群体智能优化算法用于求解此类问题,例如PSO和ACO。混合蛙跳算法(SFLA)作为一种群体智能仿生优化算法,由于具有概念简单、易于实现、参数少和全局寻优能力强等优点,已经受到国内外研究者的广泛研究,已在函数优化、组合优化、资源网络优化与生产调度等领域得到成功的应用。但是,对于使用混合蛙跳算法进行Web用户聚类尚处于起步阶段,因此,如何针对问题的特性对经典的混合蛙跳算法进行改进使其获得更好的性能具有重要意义。本文的主要工作包括以下几个方面:(1)用户相似性的计算。在度量用户之间的相似性时,用户聚类特征相似性的度量将直接影响用户之间的相似性。本文在计算用户的相似性时,主要从用户浏览兴趣度和页面被浏览的先后顺序两个方面来考虑用户聚类特征的相似性,然后在此基础上计算用户之间的相似性。(2)对经典的混合蛙跳算法进行改进。经典的混合蛙跳算法虽然已经成功应用于函数优化、组合优化等领域,但它也存在着收敛速度不够快、容易陷入早熟等缺点。针对收敛速度不够快,本文设计了一个自适应步长移动更新规则。自适应移动步长更新规则有利于在局部范围搜索时动态调整较差的蛙向较好的蛙学习的力度,从而加快算法的收敛速度。针对算法容易陷入早熟的现象,本文引入种群淘汰机制来防止算法早熟。(3)对改进的混合蛙跳算法和K中心点算法进行融合研究。通过分析混合蛙跳算法和K中心点算法的特性,本文提出一种融合混合蛙跳算法和K中心点算法的混合算法,并将其应用到Web用户聚类优化模型的求解中。(4)实验分析。分别采用K中心点算法和本文提出的混合算法对Web用户进行聚类,并对聚类结果进行分析。实验结果表明,本文提出的基于改进的混合蛙跳算法和K中心点算法的混合方法比单独的K中心点算法具有更好的聚类质量。本文的研究在Web日志的基础上能够有效的实现用户的聚类,为Web用户的聚类研究提供了一个新的方法,同时对推动混合蛙跳算法的发展具有积极的作用。