数据挖掘工作流建模及调度算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tmdjapanese
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前关于数据挖掘的研究很多,主要是对挖掘算法的研究,而对挖掘过程管理的研究则相对较少,而数据挖掘过程又是需要多次反复的多阶段处理过程,为了有效地管理和控制数据挖掘各个阶段的协调运行,我们在数据挖掘中引入了工作流技术。使用工作流技术管理数据挖掘过程的好处有,可以提高整个数据挖掘过程的效率;便于数据挖掘过程标准化;有利于发现流程的和发现模式的重用。  来自于商业领域的工作流技术处理的业务逻辑过程和数据挖掘过程有很大的不同,因此商业领域的工作流建模方法并不适合数据挖掘过程的工作流建模。我们需要设计符合数据挖掘过程特点的工作流模型。设计数据模型重点需要解决两个问题:一是工作流建模问题,二工作流执行问题。针对这两个问题,本文对以几个方面做了研究:  (1)本文在分析数据挖掘过程及其模型、科学工作流技术及其建模方法的基础上,提出了符合数据挖掘过程特点的工作流建模方法。在这种建模方法中,将数据挖掘各个阶段的数据处理算法抽象为一个角色,作为工作流建模的基础组件,将数据挖掘各个阶段的数据依赖关系建模为各个角色之间的依赖关系;并且给出模型定义的结构正确性和语义正确性验证方法;设计了数据挖掘工作流模型结构编辑原语和逻辑编辑原语。  (2)工作流模型的编辑是使用工作流技术管理数据挖掘过程的第一步,要解决一个数据挖掘问题,还需要一个工作流引擎,自动调度工作流模型所表示的数据挖掘过程的执行,进而解决数据挖掘问题。工作流引擎的核心部分是工作流调度算法,本文设计了工作流执行的二级调度的方法,分别为实例层次的调度和角色层次调度。对每个层次的调度我们提出了两种具体的算法。最后对两两组合而成四种调度算法进行了对比实验,得出了各自的优缺点及其适用范围。  (3)最后设计并实现了一个原型系统,主要包括主控模块,工作流编辑模块和工作流执行模块,证明了本文提出的工作流模型的合理性、高效性和完整性。  
其他文献
随着互联网技术的普及和发展,开放性网络上的J2EE体系结构变得越来越流行,但同时开放性的网络导致企业级应用面临来自各方面的安全威胁。如何保护信息不被非法获取、盗用、篡
针对当前人工免疫系统的通用模型在计算效能方面仍然存在的一些问题,本文通过借鉴生命科学中协同进化的一些概念和行为方式,如生态环境、物种影响等,探讨了一种协同人工免疫
电力企业智能管理系统的搜索功能有着很大的局限性,用户在需要搜索定位资源时,通常是利用模块内提供的简单查询功能来实现,这些查询功能是利用SQL语句,对相应的数据库表进行
Internet与生俱来的复杂性、异构性、动态性以及庞大的规模都给网络模拟研究工作带来了巨大挑战。在网络模拟研究中,路由策略是一个关键的环节之一,路由策略的好坏直接关系到
随着计算机技术的飞速发展,人机交互方式正逐渐发生改变,强调“以人为本”、“自然和谐”的智能人机交互技术得到了广泛关注。智能人机交互要求计算机不仅要能听、看、说,还
在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程,是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一方面,很容易陷入“维度灾难”的困境;另
无线网络近年来的快速发展,所采用的网络技术日益复杂,网络设备也日趋多样化。随着新技术设备的投入及其应用的增加,维护和管理工作已越来越繁重。再者网络规模相当庞大,设备
目前,手机短信息已成为继Internet之后的“第五媒体”,成为人们日常交流的主要方式之一。短信息在给人们带来极大方便的同时,也产生了一定的负面影响。恶意使用者利用短信平
物联网时代的到来被称为世界信息产业发展的第三次浪潮。“智慧地球”战略的提出以期通过覆盖海量的智能传感器,在物物相联的概念下一切物体都可以被感知,让整个地球形成可被感