论文部分内容阅读
Web技术不断创新,特别是物联网技术跨越式的发展,使企业能够利用传感器、射频等智能装置对物理世界进行感知识别,依托通信网络实现了人与物、物与物的信息交互以及生产生活信息的无缝连接,有效地集成了Infranet、Intranet、 Internet。这使得Web上信息量无比丰富,给人们生活提供了极大方便,但同时在客观上也增加了用户从海量数据中获取所需信息的难度,用户在面对众多的超链接选择时经常会产生一些无益于到达其目标页面的无谓点击行为。这一方面增加了Web服务器负担和网络的数据流量,造成网络阻塞,导致网络访问速度的下降,从而进一步影响信息搜寻行为的效率;另一方面阻碍了企业开展有针对性的电子商务活动。目前针对这类问题的主要解决方法是WEB挖掘,其中一种有效的方法是网站结构优化技术,它通过使用数据挖掘技术找到现有网站结构存在的不足之处并进行改善。目前存在的多种网站结构优化技术中,基于Web使用挖掘技术的网站结构优化是一个重要的研究方向,Web使用挖掘技术可以充分利用访问日志等信息发现用户的访问模式,并通过分析和研究Web日志记录中的规律来指导电子商务网站结构优化工作的进行。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,主要工作成果为:(1)研究了通过Web日志挖掘优化网站结构的过程,提出了一种通过挖掘用户期望页面来优化网站结构的算法,该算法主要以更早和更少的回退两个不同的角度去优化发现期望页面的过程,分析表明,该算法可以更有效的发现用户期望页面,从而实现网站物理结构的调整和再组织。(2)提出了一个针对分布式动态网站的Web日志挖掘数据预处理方法。在数据清理之前加入了数据合并过程,提出了日志合并算法,在该算法中充分考虑了服务器的时钟同步和时区差异对日志合并的影响,在数据清和用户识别部分添加了页面过滤部分。改进了框架式结构页面过滤算法,为了消除框架页面对Web日志挖掘算法的影响。(3)针对学校网站,利用上面的算法,设计和实现站点结构优化工具。通过该工具,可以收集用户访问日志和站点结构数据,并使用日志清理工具上述数据进行清理和转换。站点结构优化组件使用这些数据挖掘用户的期望位置,并根据这些结果调整网站的链接拓扑,以给用户提供便捷易用的链接,优化网站结构。