基于XML的Web数据挖掘技术研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:meljl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向web的数据挖掘是一项复杂的技术,Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为内容挖掘,结构挖掘和访问信息挖掘。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决数据挖掘难题带来了希望。本文研究和探讨了使用XML作为数据交换格式对Web上的数据和Web日志进行数据挖掘,从而发现关联规则。 本文完成的主要工作如下: (1) 完成了对基于XML的Web数据挖掘的技术研究并设计了相关系统。本文通过对XML这种近几年出现的具有很大潜力的Internet数据交换技术的研究分析,提出了基于XML的Web挖掘的新思路,并且完成了对XML的Web挖掘系统的系统功能设计。 (2) 实现了XML到数据库模式的转化工具。本文主要针对XML的DTD文档,提出了一系列从XML到关系数据库模式的转换算法,使得XML数据和数据库数据的联合查询成为可能,从而也就把基于XML的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法建立了联系。 (3) 研究了基于XML的Web访问日志的挖掘。本文通过使用XML来存储和规整化Web日志内容,对Web日志内容做了必要的数据清洗和数据转化,同时通过实现Apriori算法,完成了对用户访问模式中的关联规则的提取,计算了关联规则的置信度和支持度。
其他文献
入侵检测系统是网络安全体系的一个重要的组件。传统的完全基于神经网络的入侵检测系统难以获得丰富充足的样本。因此,目前的入侵检测系统面对不断变化和升级的网络配置缺乏
随着Internet的飞速发展,Web网已成为一个巨大的分布式信息空间,为人们提供大量的信息资源,其中有一类极具价值的资源,它们包含了特定的知识,人们可以通过访问这些资源来掌握资源
学位
随着网络应用需求日益朝着高性能、大规模、多样性的方向发展,对Internet网络提出了更高的分布式要求:需要这种以用户为中心的网络具有自扩充性、可移动性、可生存性、简单易
网格系统中包含各种各样的资源,这些资源具有动态变化、广域分布、系统异构等特性。网格资源管理与调度的目的就是要解决资源的描述、组织、管理等关键问题,它是整个计算网格
细纱机性能优劣对成纱的产量和质量都有重要影响。目前,国内棉纺厂所使用的细纱机一般通过人工操作完成,存在着更换纺纱品种过程繁琐、精度低、自动化水平低等诸多缺点。虽然国
面向服务架构是目前广泛使用的网络资源发布与访问的重要支撑手段,而随着信息化的快速发展,产生了越来越多的跨信任域之间互操作要求,在多信任域的环境下,如何保障服务的安全
由于Modbus应用协议的开放性使之成为工业控制领域中应用最广泛的协议之一。基于Modbus应用协议族的工业以太网解决方案也逐渐被应用于各种现场级测控领域。其中基于MODBUS/T
随着医疗成像设备的发展,医学影像的成像精度和数字化程度的提高,海量的有待临床医生及时做出诊断的影像的不断涌现,加速了计算机辅助诊断的出现和发展。本文面向计算机辅助诊断
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集。然而在这些算法中仍存在两个值得注意的问题,一是大多数增量挖掘算法一般只考虑向数据库中增加事务和
数据流作为一种数据密集型应用已经得到了广泛的认同,广泛的应用于金融服务、网络监控、电信数据管理以及传感检测等领域。在数据流模型中,数据以大量、快速、时变的数据流持