数据挖掘工作流的发现和复用

来源 :天津大学 | 被引量 : 0次 | 上传用户:ooniono
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数据挖掘模式的多样性、挖掘过程的非平凡性、挖掘算法的复杂性,使得构造一个完整的知识发现流程往往是耗时的,而且需要领域专家和算法设计人员的多方参与。这些流程不仅可以揭示知识发现过程,而且含有针对某类具有共性问题的解决方案。因此,如果能够对这些工作流进行发现和复用的话,可以大大缩短工作流的创建时间,提高工作流的创建质量。在本文中,我们利用本体论的方法实现了一个数据挖掘工作流发现和复用系统。主要工作包括:1、根据用户的需求和数据挖掘工作流的特点,提出了数据挖掘工作流的四层描述模型:1)自然语言描述;2)将工作流当作一个原子服务来描述;3)将工作流当作一个组合服务来描述;4)对工作流的结构进行描述。2、根据这个四层描述模型,建立了知识发现领域的本体,在本体中确定了数据挖掘领域的类,关系,公理,再利用它们对工作流资源进行组织。并利用OWL语言实现了该本体。3、提出了工作流查询的体系结构,由以下四个部分组成:图形化用户界面,查询处理模块,关键字查询模块,语义查询模块。在语义查询模块中,利用SPARQL语言实现了基于本体的语义查询。在数据挖掘工作流本体中,利用T-BOX中的推理来进行本体的维护,利用A-BOX的推理来回答用户的查询,在A-BOX中,我们实现了三种类型的推理:1)垂直推理;2)水平推理;3)新关系的推理。通过这些推理规则的引入,该系统就可以更好的支持用户的复杂查询,提高了搜索的查全率和查准率。4、实现了一个数据挖掘工作流发现和复用的原型系统,该系统采用三层体系结构,分别为:存储层,管理层和GUI层。这样可以让用户通过可视化界面来操作本体以进行数据挖掘工作流的查找,在该系统中,我们还提供了一些规范化的术语,以规范用户的输入来获得更准确的查询结果。现阶段,对于工作流设计的生命周期,系统支持工作流的查找,编辑和运行,但是还不能够支持工作流的发布。系统还不提供工作流的关键字查找。这两个问题将是我们下一步的研究工作。
其他文献
摘要分布式存储系统的应用已经越来越广泛。在存储系统中,可靠性是关键问题之一,保障数据的可用性必须要求存储系统提供多种方式来实现高可靠性。中文农业搜索引擎CFSEA是东
自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利
多媒体的不断普及,数字视频已经与我们的生活密不可分,它已经成为了我们获取信息的一个重要手段。随着技术的不断进步,当今视频画面的质量变得越来越好,分辨率也越来越高,这
梯形图(Ladder Diagram)是IEC61131-3标准定义的五种标准编程语言之一,由于梯形图语法简单、结构规整以及采用图形化的编程方式,使得其深受工控领域编程人员的喜爱,现已成为工业
随着互联网的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题也日益严重。邮件信誉机制作为一种新兴手段在垃圾邮件过滤领域中发挥着重要作用。然而,由
随着互联网技术的发展,人们对于网络服务的要求越来越高,数量也越来越巨大,传统客户/服务器应用构架受到了巨大的挑战。因此在当前的技术条件下,如何构建大规模、高可扩展、
桥梁远程监测是利用有线或无线通信方式实现桥梁状态实时远程监测的方法,它改变了传统的以人工为主的监测手段,大大提高了桥梁监测的自动化程度,提高了对桥梁结构损坏和突发
随着物流产业的发展,传统的第三方物流在信息共享和资源整合上开始显得力不从心,于是第四方物流应运而生。要在第三方物流的基础上构建第四方物流管理系统,如何实现管理系统
近几年随着科技的发展,Internet技术广泛的被应用,具有松耦合、异步和多点通信的等特点的发布/订阅系统(pub/sub系统)满足了分布式系统在应用范围和应用规模等方面改变的需要
当今随着信息技术的日新月异,快速发展,人们对信息的渴望也是与日俱增。面对杂乱的海量数据,如何能从中快速得到用户想要的信息,是当前亟待解决的问题。所以对海量数据进行有效的