XML与Web数据挖掘技术

来源 :商场现代化 | 被引量 : 0次 | 上传用户:j_program
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、数据挖掘概述
  
  由于Internet的发展,网上数据的不断激增,人们对网上信息的应用需求也不断提高,将这些数据进行复杂的应用成了现今数据库技术的研究热点。将传统数据库技术直接应用于网上数据的最大困难在于:传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是缺乏统一的、固定的模式,数据往往是不规则且经常变动的半结构化(即是相对于完全结构化的传统数据库的数据而言)。因此充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。所谓数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。
  1.半结构化的数据结构
  Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,也被称为半结构化数据。
  2.解决半结构化的数据源问题
  Web上的每一个站点都是异构的数据源,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。
  解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。也就是说面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。
  
  二、XML与Web数据挖掘技术
  
  XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。
  1.XML简介
  XML其特点可概括为简单、开放、高效可扩充、国际化等,是一种类似于HTML,被设计用来描述数据的语言。XML解决了HTML不能解决的两个Web问题,一是Internet发展速度快而接入速度慢的问题,二是可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。
  XML中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够进行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型定义)来显示这些数据,XSL(eXtensible StyleSheet Language)是一种来描述这些文档如何显示的机制,它是XML的样式表描述语言。XSL包括两部分:一个用来转换XML文档的方法;另一个用来格式化XML文档的方法。XLL是XML连接语言,它提供XML中的连接,与HTML中的类似,但功能更强大。由于XML能够标记更多的信息,所以它就能使用户轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、元数据、超链接结构和样式表等。
  2.XML在Web數据挖掘中的应用
  XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤(如下图):
  用标准的HTML无法完成的Web应用促进了XML应用。这些应用大体上可以被分成以下四类:
  需要Web客户端在两个或更多异质数据库之间进行通信的应用;
  将大部分处理负载从Web服务器转到Web客户端的应用;
  需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;
  需要智能Web代理根据个人用户的需要裁减信息内容的应用。
  显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠它们来实现。
  XML给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来了许多好处。由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件。
  XML还可以通过以简单开放扩展的方式描述结构化的数据,XML补充了HTML,被广泛地用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。
  XML应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件。如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序。应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
  XML还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。
  
  三、结束语
  
  面向Web的数据挖掘是一项复杂的技术,而XML的出现为解决Web数据挖掘的问题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了生机。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘变得越来越轻松、普遍。
其他文献
[摘要]在职培训是饭店一项非常重要的工作,它将直接影响饭店的经营水准与服务质量。从实际运作的情况来看,饭店职前培训能够引起高度重视,而在职培训往往容易流于形式,要解决此问题,作好特色文章是关键。  [关键词]饭店在职培训特色  饭店在职培训是饭店员工在完成生产任务过程中所接受的培训,是员工职前培训的继续与发展。职前培训是饭店员工上岗前的训练,是为饭店员工做就业准备的,也是每个员工加入饭店行业的必由
期刊
[摘要]交通运输行业的健康发展关系到千家万户的切身利益,无论是基础设施的修建和维护,还是公路、水路客货运输的快捷畅通都会直接影响到全社会经济的发展,影响到老百姓的生产生活质量。而交通运输行业的安全生产状况如何,足以反映该行业发展到何种程度,甚至对该行业的发展起着严重的制约作用。就好比一只水桶最短的一块木板,决定着这只水桶能装多少水。本文就交通行业安全生产工作特点,就如何做好交通运输安全生产工作的一
期刊
我国人力资本出资在法律上是否具有可行性?对此问题,理论界一直持否定态度,认为人力出资存在评估上的困难,以及无法保障交易安全从而损害债权人利益。应当说以此为理由是片面的,因为这种状况在其他出资方式上同样是存在的,但并没有影响法律对此加以肯定。所以,我国《公司法》可以对人力资本出资加以规定。当然对于出资者的责任,可以用公示制度来平衡出资者与债权人的利益。    一、人力资本概述    严格来说,人力资
期刊
[摘要]本文对通过金融资产的渊源,定位角度,定义,计量属性,及在实务中的运用等方面进行解析,以期能全面透彻的了解这项准则  [关键词]金融资产渊源实务运用  为了与国际接轨,2006年2月15日我国发布新的会计准则,新准则于2007年1月1日首先在上市公司实施。其中新的会计准则包括一项基本准则和38项准则,新的会计准则除了对16项准则作了修订外,另外22项均为本次新增加的.可见我国一套完善会计准则
期刊
[摘要]中小企业的员工在企业发展过程中承受了巨大的心理压力,会导致企业发展的各种问题,为此,应采用有效的心理疏通方式,以化解压力,提高工作效率。而EAP的采用就是解决这一问题的良好方式。本文试从EAP在中小企业的适用性及其产生的作用入手,进而探讨了EAP在中小企业的具体实施方式,希望能为中小企业对员工实施有效的精神激励提供一些对策。  [关键词]EAP中小企业心理压力实施  在中国市场经济体制建立
期刊
[摘要]股指期货作为一种规避风险的金融衍生品,其本身具有天然的风险特性。因此,沪深300股指期货推出后,必将受到诸如资本市场不完善,法律法规不健全等因素的制约。结合目前我国的实际情况,应加强期货监管,完善法规制度和股指期货交易人才的培养。  [关键词]风险特性沪深300股指期货因素分析  1982年2月24日,美国堪萨斯期货交易所的价值线股票指数期货上市交易,开创了股指期货交易的先河。20世纪80
期刊
80后顾名思义就是20世纪80年代后出生的人,年龄17岁~26岁之间。他们多为独生子女,人数在中国有9000万之众,覆盖了从校园到职场的年轻一族,他们有着全新的生活理念和消费心理,是未来消费的主力军,越来越受到企业界的关注。然而,要想赢得80后的青睐,就必须深入地了解他们、研究他们,有针对性地开展营销活动。笔者仅从80后的消费行为特征的角度进行了初步探讨。    一、个性消费    80后的一代生
期刊
根据《俄罗斯联邦禁止外国人在售货摊位和市场从事零售工作政府令》从2007年1月1日起,外国务工者将被禁止在俄罗斯从事酒类和药品贸易。2007年一季度,在俄市场和商亭从事小额零售贸易的务工者中,外国人所占的比例不应超过40%。从2007年4月1日起,将全面禁止外国人在俄从事小额零售贸易。    一、俄罗斯发布禁止外国人经营小额零售贸易禁令的动因    1.规范商品市场,迎接“入世”检查。此次俄罗斯以
期刊
[摘要]今年1月4日正式对外公布以来,SHIBOR引起了较为广泛的关注。SHIBOR是否能够成为中国的基准利率、是否能够在中国利率市场化进程中发挥应有的作用也成为了一个较受关注的话题。本文在比较原普遍采用的基准利率后分析SHIBOR的优势,并提出完善SHIBOR、使之能够切实发挥中国基准利率作用的几点措施。  [关键词]SHIBOR基准利率利率市场化    一、 引言    利率是借贷资金的价格,
期刊
[摘要]三峡库区人口众多,农业经济基础薄弱,农村教育相对落后。三峡工程加剧了库区的人地矛盾,农村剩余劳动力就业与农民增收难等问题突出。加强三峡库区农村剩余劳动力转移培训对提高库区农民素质、促进剩余劳动力有效转移、实现农民生活富裕和社会安稳、构建和谐三峡具有重要现实意义。  [关键词]三峡库区农村劳动力转移培训     一、三峡库区开展农村剩余劳动力转移培训的必要性    1.开展农村剩余劳动力转移
期刊