论文部分内容阅读
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及到人们生活中的方方面面。人们不再对网站、网页这些名词感到陌生了,政府机关、高校、公司都搭建了自己的网站,而且个人主页也相当流行。大家建设网站的目的都是相同的,就是通过网络这个平台展示企业、公司形象,拓展大家相互间的沟通和交流的渠道,是一个重要的交流窗口。同时人们也利用网络这个平台,实现网上购物、网上缴费等功能,我们将它称之为电子商务。当大家在访问一个网站时,当你点击网站上某个超文本链接时,网站的web服务器就会产生一条访问记录,并存储在日志文件中。所以可以想象,每天一个网站会产生大量的访问记录。Web日志挖掘就是利用这些记录来分析访问者的爱好、访问习惯等。通过web日志挖掘可以分析合理的布局网站结构、提高web的服务效率、及时的发现网络攻击、发现电子商务的潜在客户等功能。
本文首先介绍了数据挖掘的理论知识,以及当前国内外的研究现状;然后介绍了校园网的一些基本知识,指出了高校的校园网和其他商业网站之间的区别,高校校园网主要是为教学、科研服务的;同时对web数据挖掘和web日志挖掘的理论进行了研究,并详细的介绍了它们的主要研究方法和流程。Web日志挖掘的重点是数据的预处理技术和关联规则及基于关联规则的算法。
另外,还详细的介绍了关联规则及其经典算法apriori算法,并指出其不足之处,提出了一些改进的策略。在具体实现的时候,提出了基于矩阵的挖掘算法能更快的发现频繁项集。
最后,在对web日志挖掘理论和研究的基础上,设计实现了简单的web日志挖掘系统。并利用挖掘系统对我校主页web服务器、招生就业服务器的日志和二级单位的web服务器日志进行挖掘,并根据挖掘的结果对网站进行了改进。