论文部分内容阅读
如今,企业强调基于数据决策的能力。数据挖掘作为一种典型的数据分析技术,能够发现隐藏在海量数据中的有用信息,在企业决策中发挥了重要作用。然而一个不争的事实是:虽然大量的挖掘结果(模型和模式的统称)被发掘出来,但挖掘结果可解释性却普遍不高。由于决策者不参与挖掘过程,使得挖掘过程对于他们来讲就像是个黑盒。当他们获得挖掘结果时,他们可能会问:该模型是基于哪些数据产生的?产生的过程是什么样的?相比较于其它模型,该模型是如何被挑选出来的?当前,类似于这样的问题并不能得到彻底解答,使得决策者很难去理解、信任所得到的挖掘结果。解释挖掘过程是提升挖掘结果可解释性的一种行之有效的途径。CRISP-DM(Cross-industry Standard Process for Data Mining)过程标准认为挖掘过程具有迭代的特性。为了探索出满意的挖掘结果,技术人员会对挖掘工作流进行不断的修改,并运行产生不同版本的挖掘过程实例。现有方法能够分别解释每个版本的挖掘过程实例,但对迭代特性的支持仍存在不足:1)缺乏挖掘工作流演化过程的解释,使得决策者不了解挖掘过程实例之间的联系和区别,从而缺少对比挖掘过程实例的依据;2)缺乏业务背景信息,决策者不明白数据的业务语义,从而难以理解挖掘过程这样开展的原因;3)交互性不足,不支持从多个维度和粒度来对比不同的挖掘过程实例。数据起源(Data Provenance)作为描述资源(如文档、数据等)演化历史的元数据,能够帮助用户更为透彻地理解资源是如何产生的,正好可以用来作为表达、解释挖掘过程的基础。PROV是起源领域最新的建模标准,它表达资源在整个生命周期内演化的轨迹,并支持演化过程的追溯。基于PROV,数据挖掘迭代的完整轨迹就可以被清晰的描述出来,决策者对挖掘过程所产生的疑问也就可以得到很好的解答。也正是由于能够揭示资源的完整历史,PROV目前已经在多个领域发挥了重要作用。在科学工作流领域,PROV被用于重现科研结果计算的过程,以实现科研结果的验证;在Web领域,PROV被用于描述信息传播的过程,以帮助用户评价信息的可信度。本文基于PROV来表达、解释挖掘过程,通过进一步支持挖掘过程的迭代特性,以达到提升挖掘结果可解释性的目的。具体完成的工作如下:1)提出了一种基于PROV的挖掘过程起源模型PROV-WD,以融合挖掘工作流和数据集两类资源的演化过程,解决了现有方法无法解释挖掘工作流演化过程的问题。该模型将PROV中的过程要素和关系在数据挖掘领域内具体化,并以此为基础建立了能够同时描述上述两类资源演化过程的表达机制。相比现有的挖掘过程概念模型,该模型增加了挖掘工作流演化过程的描述,为挖掘过程实例的对比提供了依据。并且,现有的研究只将PROV应用于表达某一种资源演化的过程,PROV-WD则能够同时描述两类资源的演化过程,是对PROV应用的一次拓展。2)提出了一种融合了业务背景信息的挖掘过程起源模型,以解决挖掘过程解释中缺乏业务背景信息的问题。通过对PROV模型进行扩展,使其能够表达业务概念的包含和业务语义关系,并建立了业务概念与PROV-WD中数据要素进行映射,将业务背景信息融入到了挖掘过程的起源表达之中。该模型为数据要素提供了业务语义说明,使得挖掘过程的解释可以置于一定的业务背景之中,并且对PROV的表达机制进行了扩展,增加了表达业务背景信息的部分,对于PROV在其它领域的应用具有重要借鉴意义。3)提出了一种起源信息的多维数据模型,即起源立方体,以支持挖掘过程实例的多维度和多粒度的对比,从而解决挖掘过程分析中交互性不足的问题。借鉴OLAP分析中多维数据建模的思想,文中建立了“事实-维度”结构的挖掘过程起源信息存储模式,并抽象出了切块、切片等查询操作。起源立方体支持直接从维度出发,结合不同维度和粒度来分析挖掘过程,提升了挖掘过程分析中的交互性。4)基于RapidMiner Studio平台,给出了原型系统DMAnalyzer的设计方案,以验证本文挖掘过程分析方法的可行性。重点针对该平台在挖掘过程解释上问题,给出了起源信息收集、起源信息管理和多维分析引擎三个核心模块的详细设计方案。并基于DMAnalyzer进行了案例分析,验证了本文方法在支持挖掘过程迭代特性上的有效性。针对挖掘过程解释中存在的三个问题,本文基于PROV起源模型提出了一种挖掘过程分析方法。该方法不仅解释了挖掘工作流的演化过程,为挖掘过程实例的对比提供了依据,还为数据要素提供了业务语义说明,并提出了一种新的起源信息存储模式来支持挖掘过程的多维分析,提升了分析的交互性。