基于改进的混合蛙跳算法的Web用户聚类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:zhucejuren2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,Web不仅实现了全球的信息交换和资源共享,而且Web上的信息量也成指数级的增长。一方面,海量的Web信息为用户提供了获取信息的源泉;另一方面,如何高效的从海量的信息中获取有价值的信息也成了Web用户面临的一个严重挑战。Web用户聚类的最终目标就是从海量的用户访问日志记录信息中挖掘出有价值的信息,从而为用户提供优质的服务。目前,Web使用挖掘技术已经成功应用在商业智能、Web站点结构的改善、个性化服务推荐等领域。作为Web使用挖掘的一个研究点,Web用户聚类旨在发现具有相似行为的用户,从而为个性化服务的推荐、Web站点拓扑结构的改善等方面提供帮助。在Web用户的聚类研究中,大多数的研究主要是将传统的聚类算法应用于Web用户的聚类问题上。然而,传统的聚类算法,如K中心点,只能产生一个局部最优解,对大规模的Web用户聚类问题显得力不从心。针对此类情况,目前已经有很多群体智能优化算法用于求解此类问题,例如PSO和ACO。混合蛙跳算法(SFLA)作为一种群体智能仿生优化算法,由于具有概念简单、易于实现、参数少和全局寻优能力强等优点,已经受到国内外研究者的广泛研究,已在函数优化、组合优化、资源网络优化与生产调度等领域得到成功的应用。但是,对于使用混合蛙跳算法进行Web用户聚类尚处于起步阶段,因此,如何针对问题的特性对经典的混合蛙跳算法进行改进使其获得更好的性能具有重要意义。本文的主要工作包括以下几个方面:(1)用户相似性的计算。在度量用户之间的相似性时,用户聚类特征相似性的度量将直接影响用户之间的相似性。本文在计算用户的相似性时,主要从用户浏览兴趣度和页面被浏览的先后顺序两个方面来考虑用户聚类特征的相似性,然后在此基础上计算用户之间的相似性。(2)对经典的混合蛙跳算法进行改进。经典的混合蛙跳算法虽然已经成功应用于函数优化、组合优化等领域,但它也存在着收敛速度不够快、容易陷入早熟等缺点。针对收敛速度不够快,本文设计了一个自适应步长移动更新规则。自适应移动步长更新规则有利于在局部范围搜索时动态调整较差的蛙向较好的蛙学习的力度,从而加快算法的收敛速度。针对算法容易陷入早熟的现象,本文引入种群淘汰机制来防止算法早熟。(3)对改进的混合蛙跳算法和K中心点算法进行融合研究。通过分析混合蛙跳算法和K中心点算法的特性,本文提出一种融合混合蛙跳算法和K中心点算法的混合算法,并将其应用到Web用户聚类优化模型的求解中。(4)实验分析。分别采用K中心点算法和本文提出的混合算法对Web用户进行聚类,并对聚类结果进行分析。实验结果表明,本文提出的基于改进的混合蛙跳算法和K中心点算法的混合方法比单独的K中心点算法具有更好的聚类质量。本文的研究在Web日志的基础上能够有效的实现用户的聚类,为Web用户的聚类研究提供了一个新的方法,同时对推动混合蛙跳算法的发展具有积极的作用。
其他文献
作为现代通信、介质存储、数据发行、多媒体计算机等技术的关键环节,图像压缩编码始终是信息处理技术研究中最为活跃的领域之一。为了有效的存储、处理和传输大量的数据,从而
随着光通信技术的快速发展特别是密集波分复用技术的发展,单根光纤的传输能力已经达到了Tbps数量级。同时,音、视频等对网络服务质量要求较高的多媒体应用在网络中的比列也在
近年来有关图像中的特征识别技术已经日趋成熟,并且被广泛应用于图像检索、图像识别、物体跟踪等领域;而视频中的特征识别研究则刚刚起步,有关视频检索、视频解析、动作识别
当前,无论是整个社会的发展还是电子十所自身的改革与发展,都对该所人事和工资管理提出了更高、更新的要求。建立以信息技术支持的现代人事和工资管理系统,是建设好电子十所
针对MEMS设计与加工脱节的问题,本文对MEMS工艺验证进行了研究,旨在使MEMS设计者在在进行工艺仿真以及MEMS器件加工之前,先对版图和工序进行可加工性验证,如果版图或工序是不可加
“众包”的工作方式由来已久,并且日益盛行。通过“众包”的方式,雇主可以从人群中购买服务,整合人力来完成一个复杂的工作。近些年来,“众包”方式被广泛应用于互联网中,“
5.12汶川大地震,给我国的人民、经济、交通等带来了无法估计的损失。灾区多数的建筑物、公共设施、道路等已经完全毁掉,原来地图上的一些表征已经不足以表达目前的实际情况,
随着计算机计算能力的迅速增长,网格计算已经成为分布式计算的重要研究内容。目前,以网格为基础架构的e-Science协同环境下已经集成了大量的计算资源和数据资源,这些资源大多
近年来,P2P技术随互联网技术的发展而兴起,成为网络技术研究的热点。而基于P2P网络构建的存储系统,相比传统存储系统具有如下优势:不依赖中心节点、高容错、高扩展、高效率、低成
数据分类是一种重要的数据挖掘技术,常用的数据分类方法有决策树归纳分类、贝叶斯分类、神经网络分类和K最邻近分类等,采用的理论及算法有决策树(Decision Tree)、粗糙集(Rough