论文部分内容阅读
随着Internet技术的不断发展和应用,Web站点产生的信息也随之飞速增长,如何开发和利用Web站点提供的丰富信息资源成为人们普遍关注的问题。Web站点提供的丰富信息资源体现在两个层面:一方面,Web站点自身提供了丰富的信息内容;另一方面,人们对Web站点所带来的庞大的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构想。如何利用Web站点的现有访问信息提高站点的性能和更好地为用户服务,成为计算机应用领域的热门话题之一。本文以Web目志为特征展开研究,在分析Web访问数据结构的基础上,引入Web数据挖掘方法,针对计算机科学与技术学院的Web站点,设计并实现了一个特定的分析系统,获得了一些有价值的分析结论。Web数据挖掘是将数据挖掘方法运用于Web数据,提取隐藏其中的、有用的、新颖的模式或知识发现的过程。其中一个主要分支是Web日志挖掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了解Web站点的使用情况和使用Web站点的用户行为模式,从而对Web站点优化组织,更好地为用户提供服务,提高Web站点的访问量和性能。基于以上背景介绍,本文以学院网站Web服务器日志为研究素材,给出了一个Web日志数据挖掘系统的解决方案。通过本系统,不仅可以获得学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度量标准和字典向量存储,保证了聚类的准确度和存储效率。本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了Web日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相关的算法。最后结合本课题的算法,给出了系统的详细设计。并在.NET平台上实现了本系统。