【摘 要】
:
本文是针对网格数据挖掘平台(本文中指的是BillionGrid平台)进行的工作流设计。在BillionGrid平台中,对于数据挖掘的处理方式是用户每请求处理一次数据便调用一个数据挖掘算
论文部分内容阅读
本文是针对网格数据挖掘平台(本文中指的是BillionGrid平台)进行的工作流设计。在BillionGrid平台中,对于数据挖掘的处理方式是用户每请求处理一次数据便调用一个数据挖掘算法对其进行处理。这样的处理方式对于分析复杂的数据而言显得越来越简单,不能满足人们对于数据处理的要求。为了对数据进行更加深入和更加灵活的分析,本文在此网格数据挖掘平台的基础上加入了工作流的方式来处理数据。工作流使得用户可以对数据的处理进行流程化设计,大大提高了数据处理的灵活性和复杂性。本文设计的工作流采用三层设计的方式。第一层提供图形界面供用户使用,以降低用户设计工作流的难度。主要使用BPMN语言表达工作流,工作流的设计思路参考自Intalio Designer,使用bxmodeller完成这一层的工作。第二层是工作流的具体执行层,这一层对用户是透明的,由系统执行工作流任务。这一层中的主要工作是将第一层的BPMN表示的图形化工作流转化为可以执行的BPEL语言表达的工作流,并将BPEL工作流分布成web service,然后通过wsdl2java将其转化为java代码,用此方式调用工作流。第三层是数据挖掘服务层,这一层提供大量可用的数据挖掘服务,这样可以提高工作流的扩展性,任何新加入的数据挖掘服务都可以加入工作流平台。为了使数据挖掘服务更好的适应工作流,这里将BillionGrid平台的原有的服务进行了改造,加入节点查找的功能,使其更适合工作流的调用。通过以上方式实现的工作流系统具有以下特点:其一是独特性,在网格数据挖掘平台下引用工作流的方式进行数据挖掘是独一无二的,使得数据挖掘能力获得很大提升。其次是标准性,本文中的工作流平台采用标准工作流语言开发,便于以后移植与扩展。
其他文献
近年来随着科技的不断进步,移动计算和无线通信技术得到了迅速发展。与此同时,人们对移动通信技术的要求也越来越高。目前,有两种不同移动网络的配置方式:基于基础设施(例如基
时间序列数据分布广泛,长期以来,不同领域时间序列数据大量积累,对时间序列的数据挖掘逐渐得到关注。本文以公共的股票数据组成的时间序列数据作为研究对象,将时间序列数据的
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多
嵌入式技术的发展使嵌入式GIS成为信息技术领域的研究热点,特别是与GPS技术结合后,极大方便了人们的生产和生活。本系统将嵌入式GIS技术应用于国土资源调查、林业资源管理,特
Ad hoc网络是由多个结点组成的临时性的移动自组织网络(MANET:MobileAd hoc NETworks)。传统Ad hoc网络广泛应用于军事战场、紧急事件的拯救行动、临时会议等场景中。随着Ad h
嵌入式系统是促进信息化与工业化融合的核心技术,是信息技术中发展最快、应用最广的技术。嵌入式系统技术的发展,正在成为中国嵌入式系统产业发展和带动IT产业发展的新增长点。
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中
随着计算机软件在各个领域的广泛应用,计算机软件变得愈加的庞大与复杂,软件缺陷预测作为软件开发生命周期中的重要环节,可以及时的发现和纠正开发过程中的缺陷,避免软件后期
随着Internet高速发展与大面积普及,网络攻击也在不断出现。随着攻击技术的不断进步与更新,攻击工具和手法的日趋复杂,攻击工具的使用却越来越简单,现在的异常检测系统面临着
文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中,文本被送入分类器之前首先要对文本进行预处理工作,包括文本分词、去停用词、