论文部分内容阅读
目前关于数据挖掘的研究很多,主要是对挖掘算法的研究,而对挖掘过程管理的研究则相对较少,而数据挖掘过程又是需要多次反复的多阶段处理过程,为了有效地管理和控制数据挖掘各个阶段的协调运行,我们在数据挖掘中引入了工作流技术。使用工作流技术管理数据挖掘过程的好处有,可以提高整个数据挖掘过程的效率;便于数据挖掘过程标准化;有利于发现流程的和发现模式的重用。 来自于商业领域的工作流技术处理的业务逻辑过程和数据挖掘过程有很大的不同,因此商业领域的工作流建模方法并不适合数据挖掘过程的工作流建模。我们需要设计符合数据挖掘过程特点的工作流模型。设计数据模型重点需要解决两个问题:一是工作流建模问题,二工作流执行问题。针对这两个问题,本文对以几个方面做了研究: (1)本文在分析数据挖掘过程及其模型、科学工作流技术及其建模方法的基础上,提出了符合数据挖掘过程特点的工作流建模方法。在这种建模方法中,将数据挖掘各个阶段的数据处理算法抽象为一个角色,作为工作流建模的基础组件,将数据挖掘各个阶段的数据依赖关系建模为各个角色之间的依赖关系;并且给出模型定义的结构正确性和语义正确性验证方法;设计了数据挖掘工作流模型结构编辑原语和逻辑编辑原语。 (2)工作流模型的编辑是使用工作流技术管理数据挖掘过程的第一步,要解决一个数据挖掘问题,还需要一个工作流引擎,自动调度工作流模型所表示的数据挖掘过程的执行,进而解决数据挖掘问题。工作流引擎的核心部分是工作流调度算法,本文设计了工作流执行的二级调度的方法,分别为实例层次的调度和角色层次调度。对每个层次的调度我们提出了两种具体的算法。最后对两两组合而成四种调度算法进行了对比实验,得出了各自的优缺点及其适用范围。 (3)最后设计并实现了一个原型系统,主要包括主控模块,工作流编辑模块和工作流执行模块,证明了本文提出的工作流模型的合理性、高效性和完整性。