论文部分内容阅读
信息时代的来临与网络商务的迅速发展,人们的网络商务行为变得越来越频繁,数据挖掘已经发展成为网络中的Web数据挖掘,Web数据挖掘的应运而生标志着人类商业的巨大变革。一方面,Web网服务商不断设法获取用户浏览的爱好兴趣,以便将更有针对性的服务提供给用户。另一方面,越来越多的人关注起如何快速且有效地从海量网络信息中发现有价值的、潜在的信息。但是,因为Web是无结构的动态的,而且Web页面复杂度远远比文本文档要大的多。Web日志挖掘是运用Web技术和传统数据挖掘相结合,对服务器日志进行分析处理和挖掘,从大量的数据信息中发现有规律性的内容,解决以上提出的各种问题。Web应用挖掘也称为Web日志挖掘(Web Log Mining),是Web挖掘中的一个很重要的方面,它有着很多的经典算法,其中算法Hamming距离聚类算法取得了一定的成效,但是还存在一些不足。本文介绍了数据挖掘与Web数据挖掘及其分类和方法,然后从分析Hamming距离聚类算法的不足入手,对传统的Web日志挖掘Hamming距离聚类算法进行改进,其一是把代表用户兴趣度的相应数据作为权值应用到算法过程改进当中,从而提高了聚类算法结果的准确性,其二是在程序调用数据时,对其访问的数据库中的数据做相应优化,以缩短计算过程中数据重复调用、重复计算所耗费的大量时间,并列出简单例子中的计算过程合理分析,通过理论与实验证明了算法运行结果,最后验证了改进后的Hamming距离聚类算法合理性和有效性。