Web信息集成技术研究

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:yinqing68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】在当前网络上存在着大量的异构数据,如何集成这些异构的Web数据是一个很重要的研究工作。目前,它已经成为数据库领域的研究热点。文中对Web信息的集成技术进行了探讨与研究,最后进行了总结与展望。
  【关键词】信息集成,异构,半结构化数据
  【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2012)11-0124-01
  1、引言
  随着网络技术和计算机技术的飞速发展,大量的异构的Web数据信息被分散在网路上的各个节点中,在这些数据之间往往又是相互独立的。为了提高数据的利用率,使这些相互独立的数据更好的集成起来,从而满足更好实现信息的资源发布与共享,迫切需要为这些数据信息建立一个公共的集成系统,用户通过这个系统能够透明地访问这些数据源。在信息集成研究范畴中,所解决的问题是:要把分布在不同位置上的各种异构信息源的数据信息进行合并起来,形成统一数据视图。在集成过程中,要求屏蔽各种不同数据源信息的差异性。用户通过建立的异构数据集成系统端口,可以透明的访问这些分散的异构数据。
  2、信息集成的方法
  从目前研究的现状和发展趋势看来,对于信息集成系统的开发采用的方法用很对种,这些方法之间虽然不尽相同,但统一来看,信息集成的方法主要有两类构成,分别是:采用物化方法(又称数据仓库法)和虚拟方法(又称中间件法)。
  (1)物化方法:这种系统开发方法,具体的做法是:在数据源端和客户端中间建立一个数据仓库层,该层用于存放待集成的各种数据源。集成系统可以实现对这个数据层的查询操作。采用这种方法建立的系统集成系统的优点在于:不仅可以用于信息集成,而且还可以对用户提供决策支持查询的功能。这是一种通过中间件的数据访问方式,因此这种方法,由于在数据源和用户之间增加了数据仓库层,因此容易导致数据更新不及时和容易导致数据的重复存储,这是物化方法的缺点。
  (2)虚拟方法:这种方法的处理思路与物化方法是完全不同的。在该方法操作中,允许各种异构的数据源仍然存放在本地,系统通过建立一个虚拟的集成视图来实现对数据查询的操作机制。该方法开发的信息集成系统会自动将用户查询的请求申请转入到对各个数据源的访问查询。对于用户来说,在查询过程中,并不会感觉到查询的转换过程。在这个对数据源的查询过程中,主要有两类软件组件:包装器(wrappers)和中间件(mediators),提供帮助和实现功能。包装器实现对数据源的包装,负责把各个不同数据源进行封装转换成统一的数据模型。在该方法中,由于不需要存储大量重复的数据信息,在数据更新操作上也很及时,因此这种集成方式比较适合数量多的数据源的集成操作。
  通过对上述两种方法的比较,我们可以看出:物化方法中,需要建立一个中间层用来备份全局模式中的数据,系因此统需要多维护一个与信息源中数据一致的视图副本,这样系统在访问过程中更新操作所需要的代价比较高。总的来说物化方法是比较适合于数据仓库这类实时胜要求不高的应用。在虚拟方法中,中间层不需要备份任何数据实例,这个中间层只是作为一个访问接口之用。但由于在处理用户查询需求时,由于需要访问分散在不同位置的不同的信息源,这样会导致响应查询不及时,使得查询代价比较高。
  3、信息集成中的查询处理
  在信息集成系统中一个重要的工作就是完成数据的查询功能。查询操作时连接用户和信息集成系统的一个重要的桥梁纽带。用户在集成系统上建立的查询时基于视图的查询,从而获取所需要的信息。然后在进行这一系列查询的操作过程中,需要经过以下几个过程的操作0]:
  (1)查询分析:在这一过程,首先由中间件对全局的查询进行语法和语义的检测和验证,从而确保查询语法和语义的正确性;
  (2)查询规划:经过上一过程的验证以后,由中间件对合法的查询选择信息源,然后对该信息源进行分解操作;
  (3)局部子查询:中间件分解处理,将数据源分成若干个子查询后,进行统一分派到指定的包装器中;
  (4)返回结果:中间件将汇集各个子查询的结果的同时,还要处理剩余的工作,将得到的查询结果反馈给查询信息的用户。
  其实,在信息集成中的查询处理过程涉及的理论和方法众多。这些理论和方法问题(如查询规划、查询优化、查询应答和查询重写等等)值得深入的探讨和研究,目前有很多的许多有关文献对此进行了研究和分析。由于篇幅的限制,在此不作介绍,读者可以参考相关的文献或资料。
  4、半结构化数据与Web信息集成
  近年来随着网络技术飞速发展,在网络上产生了大量和海量的Web信息,这些信息大部分是以半结构化或非结构化的形式存在。以此有关半结构化或非结构化数据的集成研究就成了当前一个研究的重点和热点之一。目前在与半结构化和非结构化数据的集成系统中,都是采用XML作为数据交换的中间模式。XML已经成为互联网上数据交换的标准。它不仅可以表示关系型数据,而且还可以很好的表示树型结构和图型结构的其它数据。目前大量的异构集成系统集成过程中都采用了XML作为数据交换的标准和桥梁。
  在对于半结构化数据模式的描述中,目前主要有两种常见的模型:第一种是XML标签有向图模型,即XML文档可表示成一个带标签的有向图,OEM模型为其中最具典型代表;第二种是XML标签有向树模型来表示。在集成系统中的数据抽取较常使用的是Wrapper技术。当前,网络上的数据信息一般是用HTML表示的,因此数据抽取的前提是基于HTML文档格式的。这里有两种表示方式来对数据的描述:(1)把半结构化文档看作字符流,利用分界符作为界限进行划分和信息抽取。(2)把半结构化文档看成树型结构,按照树的特点抽取树的路径,利用HTML标签的特点把文档分析成树型结构,通过树的路径搜索相应的结点,最终查询所需要的数据。
  5、总结与展望
  伴随着计算机技术和网络技术的发展,异构Web信息集成技术成为下一代互联网中的信息融合和信息处理等的关键技术。然而Web服务的不断研究和发展,同时也给信息集成技术提供了更广阔的发展空间。借助于本体描述服务的结构、类型和语义,可以使Web services语义表示模型化和统一化。这样可以从语义层面解决异构数据问题。总之,异构信息集成技术的研究是一个具有远大前景的研究领域,同时又是一个充满着巨大的挑战的课题。
其他文献
生产现状 甲乙酮(MEK)是一种性能优良的工业溶剂,广泛用于涂料、炼油、染料、医药等工业。其沸点适中,溶解性能好,挥发速度快,稳定、无毒,在酮类溶剂中重要性仅次于丙酮。世
目前,有7台连续蒸煮器采用最新的工艺技术生产阔叶木浆。在不同的工厂,已经证明紧凑蒸煮COMPACT COOKINGTM可以提高蒸煮得率、均匀蒸煮而降低卡伯值的波动、降低浆渣含量、提
为进一步宣传贯彻党的十四大精神和科学技术是第一生产力的思想,中国体育科学学会于第4届全国体育科学大会期间(1992年12月8日)在山东潍坊市召开了社会主义市场经济与体育座
国内外学者对太极拳锻炼的生理效应及健身原理,已有许多研究,但从太极拳练习者性激素的变化探讨太极拳抗衰老作用方面的文献报导甚少。本文从练习太极拳后女受试者唾雌二醇
《科技导报》2014年第21期“职场”栏目刊登了郭孝玉撰写的“家庭与机遇,该如何抉择”一文。
【摘 要】   随着个人网络技术(PWTs)的日益成熟与易用,编织个人学习网络(PLN)变得重要起来。本文讨论如何利用个人网络技术来创造个性化、连接和动态的学习环境(PLE)。以实例形式分析常用的工具,并探讨通过创建个性化的,连接和动态的学习环境来加强个人学习网络,促进个人学习和工作之间的联系。  【关键词】个人学习网络;个人网络技术;个人学习环境     【中图分类号】 G40-057
日本血吸虫病的脑部異位早在1889年已被发现。我国文献记载亦很多,至1959年10月止根据张沅昌收集国内已报告的有66例,此后赵以成在顱内肿瘤的分析中报告有3例。病例虽不少,
近几年来,使用可的松类激素(以下簡称激素)治疗結核性脑膜炎获得較为滿意的效果。临床方面的經驗,国內已有报道,但病理方面的研究尚未見有报告,仅有Feldman报告激素对实驗性
皮锡瑞的未刊稿《师伏堂经说》,是他始治经学时的笔记,其中《公羊传》题下的93条札记,有61条针对《春秋公羊传注疏》的各种缺失而发。细检皮锡瑞对何注、徐疏的批评,可归结为三个方面:一是纠补其文字训释之误,二是指陈其违离传叉之弊,三是揭举其前后乖异之失。清代公羊学家重义例而轻文辞,对《春秋公羊传注疏》作训诂、考释的不多,皮锡瑞本着朴学精神,指陈其瑕疵,纠补其缺失,因此十分值得令人重视。
目的探讨急性暴露在高原缺氧环境(海拔4300 m)对Wistar大鼠体质量、血清中TNF-α和一氧化氮(NO)含量,脑和肺生理病理的影响及氨茶碱干预对缺氧大鼠的多重保护作用。方法将21