论文部分内容阅读
一、数据挖掘概述
由于Internet的发展,网上数据的不断激增,人们对网上信息的应用需求也不断提高,将这些数据进行复杂的应用成了现今数据库技术的研究热点。将传统数据库技术直接应用于网上数据的最大困难在于:传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是缺乏统一的、固定的模式,数据往往是不规则且经常变动的半结构化(即是相对于完全结构化的传统数据库的数据而言)。因此充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。所谓数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。
1.半结构化的数据结构
Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,也被称为半结构化数据。
2.解决半结构化的数据源问题
Web上的每一个站点都是异构的数据源,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。
解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。也就是说面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。
二、XML与Web数据挖掘技术
XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。
1.XML简介
XML其特点可概括为简单、开放、高效可扩充、国际化等,是一种类似于HTML,被设计用来描述数据的语言。XML解决了HTML不能解决的两个Web问题,一是Internet发展速度快而接入速度慢的问题,二是可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。
XML中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够进行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型定义)来显示这些数据,XSL(eXtensible StyleSheet Language)是一种来描述这些文档如何显示的机制,它是XML的样式表描述语言。XSL包括两部分:一个用来转换XML文档的方法;另一个用来格式化XML文档的方法。XLL是XML连接语言,它提供XML中的连接,与HTML中的类似,但功能更强大。由于XML能够标记更多的信息,所以它就能使用户轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、元数据、超链接结构和样式表等。
2.XML在Web數据挖掘中的应用
XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤(如下图):
用标准的HTML无法完成的Web应用促进了XML应用。这些应用大体上可以被分成以下四类:
需要Web客户端在两个或更多异质数据库之间进行通信的应用;
将大部分处理负载从Web服务器转到Web客户端的应用;
需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;
需要智能Web代理根据个人用户的需要裁减信息内容的应用。
显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠它们来实现。
XML给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来了许多好处。由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件。
XML还可以通过以简单开放扩展的方式描述结构化的数据,XML补充了HTML,被广泛地用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。
XML应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件。如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序。应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
XML还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。
三、结束语
面向Web的数据挖掘是一项复杂的技术,而XML的出现为解决Web数据挖掘的问题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了生机。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘变得越来越轻松、普遍。
由于Internet的发展,网上数据的不断激增,人们对网上信息的应用需求也不断提高,将这些数据进行复杂的应用成了现今数据库技术的研究热点。将传统数据库技术直接应用于网上数据的最大困难在于:传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是缺乏统一的、固定的模式,数据往往是不规则且经常变动的半结构化(即是相对于完全结构化的传统数据库的数据而言)。因此充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。所谓数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。
1.半结构化的数据结构
Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,也被称为半结构化数据。
2.解决半结构化的数据源问题
Web上的每一个站点都是异构的数据源,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。
解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。也就是说面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。
二、XML与Web数据挖掘技术
XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。
1.XML简介
XML其特点可概括为简单、开放、高效可扩充、国际化等,是一种类似于HTML,被设计用来描述数据的语言。XML解决了HTML不能解决的两个Web问题,一是Internet发展速度快而接入速度慢的问题,二是可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。
XML中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够进行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型定义)来显示这些数据,XSL(eXtensible StyleSheet Language)是一种来描述这些文档如何显示的机制,它是XML的样式表描述语言。XSL包括两部分:一个用来转换XML文档的方法;另一个用来格式化XML文档的方法。XLL是XML连接语言,它提供XML中的连接,与HTML中的类似,但功能更强大。由于XML能够标记更多的信息,所以它就能使用户轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、元数据、超链接结构和样式表等。
2.XML在Web數据挖掘中的应用
XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤(如下图):
用标准的HTML无法完成的Web应用促进了XML应用。这些应用大体上可以被分成以下四类:
需要Web客户端在两个或更多异质数据库之间进行通信的应用;
将大部分处理负载从Web服务器转到Web客户端的应用;
需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;
需要智能Web代理根据个人用户的需要裁减信息内容的应用。
显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠它们来实现。
XML给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来了许多好处。由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件。
XML还可以通过以简单开放扩展的方式描述结构化的数据,XML补充了HTML,被广泛地用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。
XML应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件。如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序。应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
XML还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。
三、结束语
面向Web的数据挖掘是一项复杂的技术,而XML的出现为解决Web数据挖掘的问题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了生机。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘变得越来越轻松、普遍。