论文部分内容阅读
WWW是一个开放的全球性的资源,它包含了海量的跟人类生活密切相关的数据。随着WWW上信息的爆炸性的增长,在如此大量的数据中发现有用的信息变得困难。而数据挖掘技术(Data Mining,简称DM)是从大量的数据中提取出隐藏在数据之后的有用的信息。因此,采用数据挖掘技术从WWW上智能地、自动地提取出有价值的知识,提高WWW的效率,具有十分重要的现实意义和广泛的应用前景。 本文首先简要论述了WWW发展的基本情况以及当前存在的一些问题。随后,论述了数据挖掘技术的基本概念、原理。在论述了数据挖掘技术理论之后,研究了数据挖掘技术在WWW上的应用,详细论述了Web内容挖掘和Web使用挖掘的内容、特点、存在的问题。接着,重点讨论了数据挖掘中的关联规则挖掘,论述了其基本概念、算法。在研究WWW、DM、Web DM、关联规则的基础上,提出了一种采用关联规则的方法解决网络拥塞问题,通过对服务器的访问日志进行挖掘,得到用户访问序列的关联规则,将这些规则应用到客户浏览,把用户随后最有可能访问的网页预先传送到用户本地,来提高访问速度。文中详细论述了该方法的实现方案、算法、运行的环境以及对该方法的分析。最后,对全文进行了总结。