论文部分内容阅读
由于数据挖掘模式的多样性、挖掘过程的非平凡性、挖掘算法的复杂性,使得构造一个完整的知识发现流程往往是耗时的,而且需要领域专家和算法设计人员的多方参与。这些流程不仅可以揭示知识发现过程,而且含有针对某类具有共性问题的解决方案。因此,如果能够对这些工作流进行发现和复用的话,可以大大缩短工作流的创建时间,提高工作流的创建质量。在本文中,我们利用本体论的方法实现了一个数据挖掘工作流发现和复用系统。主要工作包括:1、根据用户的需求和数据挖掘工作流的特点,提出了数据挖掘工作流的四层描述模型:1)自然语言描述;2)将工作流当作一个原子服务来描述;3)将工作流当作一个组合服务来描述;4)对工作流的结构进行描述。2、根据这个四层描述模型,建立了知识发现领域的本体,在本体中确定了数据挖掘领域的类,关系,公理,再利用它们对工作流资源进行组织。并利用OWL语言实现了该本体。3、提出了工作流查询的体系结构,由以下四个部分组成:图形化用户界面,查询处理模块,关键字查询模块,语义查询模块。在语义查询模块中,利用SPARQL语言实现了基于本体的语义查询。在数据挖掘工作流本体中,利用T-BOX中的推理来进行本体的维护,利用A-BOX的推理来回答用户的查询,在A-BOX中,我们实现了三种类型的推理:1)垂直推理;2)水平推理;3)新关系的推理。通过这些推理规则的引入,该系统就可以更好的支持用户的复杂查询,提高了搜索的查全率和查准率。4、实现了一个数据挖掘工作流发现和复用的原型系统,该系统采用三层体系结构,分别为:存储层,管理层和GUI层。这样可以让用户通过可视化界面来操作本体以进行数据挖掘工作流的查找,在该系统中,我们还提供了一些规范化的术语,以规范用户的输入来获得更准确的查询结果。现阶段,对于工作流设计的生命周期,系统支持工作流的查找,编辑和运行,但是还不能够支持工作流的发布。系统还不提供工作流的关键字查找。这两个问题将是我们下一步的研究工作。